网络蜘蛛
文章平均质量分 79
eric84
这个作者很懒,什么都没留下…
展开
-
Spider技术:设计Spider时要解决的几个问题
作者:渡渡鸟工作室http://hi.baidu.com/dudubirdstudio(版权所有,转载须注明出处)spider是整个搜索引擎系统中很重要的一个组成部分,可以说是搜索引擎的基础。它不仅仅是为搜索引擎提供了搜索对象——海量数据,更重要的是它使搜索引擎从一个检索工具上升为一个信息整合的平台。搜索引擎的本质就是信息的整合,通过信息的整合构建了一个用户平台。这样就使得搜索引擎成为一个很好转载 2008-04-01 14:04:00 · 481 阅读 · 0 评论 -
搜索引擎复制网页的算法
搜索引擎算法之复制网页搜索引擎复制网页的算法春节这几天,看了一些搜索引擎基本原理的书,下面把了解到关于复制网页的算法写下来。关键词:搜索引擎,复制网页,算法,信息指纹,Fingerprint,关键词搜索引擎判断复制网页一般都基于这么一个思想:为每个网页计算出一组信息指纹(Fingerprint),若两个网页有一定数量相同的信息指纹,则认为这两个网页的内容重叠性很高,也就是说两个网页是内容复制的转载 2008-04-01 14:14:00 · 342 阅读 · 0 评论