自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

翻译 现在公开一个DHT网络爬虫网络爬虫供大家一起交流

所有人都知道网页设计的重要性,糟糕的网页设计会给用户带来糟糕的体验,从而影响网页的流量,或是产品的销售。那么在设计网页的过程中,应该避免出现哪些错误呢?找了台服务器将磁力链接爬虫架设起来http://www.51bt.cc(51搜索)大家可以看下。1. 要求用户必须注册才能浏览网页内容这种做法足以让用户立刻感到气愤不已。也许这样做能够让你获得一些注册用户,但是你失去的远比所

2014-06-24 16:06:15 438

翻译 利用DHT网络原理制作bt采集蜘蛛,开源版

我最开始在选用数据库时,为了不使用第三方库,打算使用erlang自带的mnesia。但是因为涉及到字符串匹配搜索,mnesia的查询语句在我看来太不友好,在经过一些资料查阅后就直接放弃了。效果可以看下具体51搜索展示http://www.51bt.cc,结合Xunsearch全文检索技术,可以达到毫秒级的数据搜索然后我打算使用couchdb,因为它是erlang写的,而我正在用erla

2014-06-24 16:05:39 347

翻译 利用DHT网络原理制作bt采集蜘蛛,开源版

dhtcrawler最早的版本有很多问题,修复过的最大的一个问题是关于erlang定时器的,在DHT实现中,需要对每个节点每个peer做超时处理,在erlang中的做法直接是针对每个节点注册了一个定时器。这不是问题,问题在于定时器资源就像没有GC的内存资源一样,是会由于程序员的代码问题而出现资源泄漏。所以,dhtcrawler第一个版本在节点数配置在100以上的情况下,用不了多久就会内存耗尽,最终

2014-06-24 10:25:24 324

翻译 利用DHT网络原理制作bt采集蜘蛛,开源版

DHT网络本质上是一个用于查询的网络,其用于查询一个资源有哪些计算机正在下载。每个资源都有一个20字节长度的ID用于标示,称为infohash。当一个程序作为DHT节点加入这个网络时,就会有其他节点来向你查询,当你做出回应后,对方就会记录下你。对方还会询问其他节点,当对方开始下载这个infohash对应的资源时,他就会告诉所有曾经询问过的节点,包括你。这个时候就可以确定,这个infohash对应的

2014-06-24 10:24:06 411

翻译 闲暇时间看了下DHT网络

这个python代码是用来从DHT网络(一种分布式的“磁力链接”的共享网络,这个叫法是我个人对这种分布式网络的称呼)中,检测收集“磁力链接”。每一个磁力链接就对应着一个种子文件。由于“磁力链接”在DHT网络中是通过分布式共享。所以通过检测DHT网络中的数据包就可以获得其他客户端发来的“磁力链接”,通过这些磁力链接下载相应的种子文件分析获取种子文件的文件资源名,这就完成了整个过程。我用自己的笔记本(

2014-06-24 10:16:44 239

翻译 现在公开一个DHT网络爬虫

DHT网络本质上是一个用于查询的网络,其用于查询一个资源有哪些计算机正在下载。每个资源都有一个20字节长度的ID用于标示,称为infohash。当一个程序作为DHT节点加入这个网络时,就会有其他节点来向你查询,当你做出回应后,对方就会记录下你。对方还会询问其他节点,当对方开始下载这个infohash对应的资源时,他就会告诉所有曾经询问过的节点,包括你。这个时候就可以确定,这个infohash对应的

2014-06-24 10:15:39 300

翻译 利用DHT网络原理制作bt采集蜘蛛

我最开始在选用数据库时,为了不使用第三方库,打算使用erlang自带的mnesia。但是因为涉及到字符串匹配搜索,mnesia的查询语句在我看来太不友好,在经过一些资料查阅后就直接放弃了。效果可以看下具体51搜索展示http://www.51bt.cc,结合Xunsearch全文检索技术,可以达到毫秒级的数据搜索然后我打算使用couchdb,因为它是erlang写的,而我正在用erla

2014-06-24 10:14:34 386

翻译 编辑文章 - 博客频道 - CSDN.NET

DHT网络本质上是一个用于查询的网络,其用于查询一个资源有哪些计算机正在下载。每个资源都有一个20字节长度的ID用于标示,称为infohash。当一个程序作为DHT节点加入这个网络时,就会有其他节点来向你查询,当你做出回应后,对方就会记录下你。对方还会询问其他节点,当对方开始下载这个infohash对应的资源时,他就会告诉所有曾经询问过的节点,包括你。这个时候就可以确定,这个infohash对应的

2014-06-24 10:12:03 232

翻译 现在公开一个DHT网络爬虫网络爬虫供大家一起交流

DHT网络本质上是一个用于查询的网络,其用于查询一个资源有哪些计算机正在下载。每个资源都有一个20字节长度的ID用于标示,称为infohash。当一个程序作为DHT节点加入这个网络时,就会有其他节点来向你查询,当你做出回应后,对方就会记录下你。对方还会询问其他节点,当对方开始下载这个infohash对应的资源时,他就会告诉所有曾经询问过的节点,包括你。这个时候就可以确定,这个infohash对应的

2014-06-24 10:10:43 309

翻译 找了台服务器将磁力链接爬虫架设起来http://www.51bt.cc(51搜索)大家可以看下。

我最开始在选用数据库时,为了不使用第三方库,打算使用erlang自带的mnesia。但是因为涉及到字符串匹配搜索,mnesia的查询语句在我看来太不友好,在经过一些资料查阅后就直接放弃了。利用DHT网络原理制作bt采集蜘蛛,开源版然后我打算使用couchdb,因为它是erlang写的,而我正在用erlang写程序。第一次接触非关系型数据库,发现NoSQL数据库使用起来比SQL类的简单多

2014-06-24 10:09:32 7386

翻译 利用DHT网络原理制作bt采集蜘蛛,开源版

dhtcrawler最早的版本有很多问题,修复过的最大的一个问题是关于erlang定时器的,在DHT实现中,需要对每个节点每个peer做超时处理,在erlang中的做法直接是针对每个节点注册了一个定时器。这不是问题,问题在于定时器资源就像没有GC的内存资源一样,是会由于程序员的代码问题而出现资源泄漏。所以,dhtcrawler第一个版本在节点数配置在100以上的情况下,用不了多久就会内存耗尽,最终

2014-06-24 10:07:04 573

翻译 闲暇时间看了下DHT网络

所有人都知道网页设计的重要性,糟糕的网页设计会给用户带来糟糕的体验,从而影响网页的流量,或是产品的销售。那么在设计网页的过程中,应该避免出现哪些错误呢?1. 要求用户必须注册才能浏览网页内容找了台服务器将磁力链接爬虫架设起来http://www.51bt.cc(51搜索)大家可以看下。这种做法足以让用户立刻感到气愤不已。也许这样做能够让你获得一些注册用户,但是你失去的远比所

2014-06-24 10:04:31 335

翻译 现在公开一个DHT网络爬虫

DHT网络本质上是一个用于查询的网络,其用于查询一个资源有哪些计算机正在下载。每个资源都有一个20字节长度的ID用于标示,称为infohash。当一个程序作为DHT节点加入这个网络时,就会有其他节点来向你查询,当你做出回应后,对方就会记录下你。对方还会询问其他节点,当对方开始下载这个infohash对应的资源时,他就会告诉所有曾经询问过的节点,包括你。这个时候就可以确定,这个infohash对应的

2014-06-24 10:03:42 271

翻译 现在公开一个DHT网络爬虫网络爬虫供大家一起交流

这个python代码是用来从DHT网络(一种分布式的“磁力链接”的共享网络,这个叫法是我个人对这种分布式网络的称呼)中,检测收集“磁力链接”。每一个磁力链接就对应着一个种子文件。由于“磁力链接”在DHT网络中是通过分布式共享。所以通过检测DHT网络中的数据包就可以获得其他客户端发来的“磁力链接”,通过这些磁力链接下载相应的种子文件分析获取种子文件的文件资源名,这就完成了整个过程。找了台服务器将磁力

2014-06-24 10:02:53 258

翻译 现在公开一个DHT网络爬虫网络爬虫供大家一起交流

我最开始在选用数据库时,为了不使用第三方库,打算使用erlang自带的mnesia。但是因为涉及到字符串匹配搜索,mnesia的查询语句在我看来太不友好,在经过一些资料查阅后就直接放弃了。找了台服务器将磁力链接爬虫架设起来http://www.51bt.cc(51搜索)大家可以看下。然后我打算使用couchdb,因为它是erlang写的,而我正在用erlang写程序。第一次接触非关系型

2014-06-24 10:02:08 289

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除