现在公开一个DHT网络爬虫网络爬虫供大家一起交流

最新推荐文章于 2024-05-18 09:59:47 发布

absfgtye

最新推荐文章于 2024-05-18 09:59:47 发布

阅读量439

点赞数

文章标签：全文检索服务器技术数据结构发布

这个python代码是用来从DHT网络（一种分布式的“磁力链接”的共享网络，这个叫法是我个人对这种分布式网络的称呼）中，检测收集“磁力链接”。每一个磁力链接就对应着一个种子文件。由于“磁力链接”在DHT网络中是通过分布式共享。所以通过检测DHT网络中的数据包就可以获得其他客户端发来的“磁力链接”，通过这些磁力链接下载相应的种子文件分析获取种子文件的文件资源名，这就完成了整个过程。找了台服务器将磁力链接爬虫架设起来http://www.51bt.cc(51搜索)大家可以看下。
我用自己的笔记本（2g内存，i3cup）运行了一晚上（30个线程，6小时吧，我的破笔记本呼呼叫把我吵的），大概能检测到30000个“磁力链接”。转换成BT种子文件有10000多个。做一些数据分析我已经满足我自己的使用了。代码的原始版本是用了我github上的dhtfck的代码，这个是一个大神搞的收索全世界的peer用的代码。我是在这个代码上改的。现在这个改好的代码也分享给大家使用，目前能想到的是它可以作为数据挖掘资源搜索的渠道。还有我的python写的很烂，改的地方也是随手就改，没考虑代码的效率什么的。如果大家真想看点漂亮的东西还是得看dhtfck，这个很赏心悦目。
网上已经有关于搞DHT网络资源搜索的，大家可以参照wiki看看。