- 博客(5)
- 收藏
- 关注
翻译 网络爬虫供大家一起交流
dhtcrawler最早的版本有很多问题,修复过的最大的一个问题是关于erlang定时器的,在DHT实现中,需要对每个节点每个peer做超时处理,在erlang中的做法直接是针对每个节点注册了一个定时器。这不是问题,问题在于定时器资源就像没有GC的内存资源一样,是www.usus.cc会由于程序员的代码问题而出www.usus.cc现资源泄漏。所以,dhtcrawler第一个版本在节点数配置在10
2014-07-06 15:17:02
590
翻译 闲暇时间看了下DHT网络
P2P系统的应用越来越广泛,在文件共享、流媒体服务、即时通讯交流、计算和存储能力共享以及协同处理与服务等方面都能看到P2P的存在,一些P2P应用如Napster、eMule、BitTorrent等早已是家喻户晓了。 P2P按其拓扑关系大致可以分为两类四种形式: 1.非结构化拓扑。包括中心化拓扑、分布式拓扑、半分布式拓扑,其分别对应着Napster、BitTorrent、K
2014-07-06 14:55:13
430
翻译 Torrent文件
Torrent文件内的数据结构分为以下几部分: announce:Tracker的主服务器 announce-list:Tracker服务器列表 comment:种子文件的注释 comment.utf-8:种子文件注www.usus.cc释的utf-8编码 creation date:种子文件建www.usus.cc立的时间,是从1970年1月1日
2014-07-06 14:55:04
1164
翻译 现在公开一个DHT网络爬虫
这个python代码是用来从DHT网络(一种分布式的“磁力链接”的共享网络,这个叫法是我个人对这种分布式网络的称呼)中,检测收集“磁力链接”。每一个磁力链接就对应着一个种子文件。由于“磁力链接”在DHT网络中是通过分布式共享。所以通过检测DHT网络中的数据包就可以获得其他客户端发来的“磁力链接”,通过这些磁力链接下载相应的种子文件分析获取种子文件的文件资源名,这就完成了整个过程。 我用自己的笔记
2014-07-06 14:52:08
488
翻译 网络原理制作bt采集蜘蛛
我最开始在选用数据库时,为了不使用第三方库,打算使用erlang自带的mnesia。但是因为涉及到字符串匹配搜索,mnesia的查询语句在我看来太不友好,在经过一些资料查阅后就直接放弃了。 然后我打算使用couchdb,因为它是erlang写的,而我正在用erlang写程序。第一次接触非关系型数据库,发现NoSQL数据库使用起来比SQL类的简单多了。但是在erlang里要使用couchd
2014-07-06 14:51:06
1363
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人