2. 搜索技术(蜘蛛/爬虫)
文章平均质量分 78
Kangsheng
这个作者很懒,什么都没留下…
展开
-
搜索引擎:数字信息搜索,理论著作
一部指导搜索引擎理论的书引言,打算业余的时间将这本书的骨架写出来,至于其中的血肉,有空了再补充上。这里基本上最主要的内容是数学+信息学,基本上是我这几年的工作。因此基本上以理论知识为主,当然也会有一些实用的例子,如果您问“如何提高网站的排名?”或者“如何提高被搜索到的次数?”,抱歉,这些问题不在我的回答范围内,我这里要写的是关于搜索的理论,已经被搜索引擎用到的和没有用的到,已经公开的或者未公开的知原创 2005-03-19 10:37:00 · 1599 阅读 · 0 评论 -
中文搜索引擎技术揭密:网络蜘蛛(一)
来源:e800.com.cn 随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料;作为学者,会把有代表性的搜索引擎作为研究对象…… 而作为一个网站的经营者,其更关心的或许是如何通过网络载体让更多的网民知道自己的网站,进而获得更原创 2005-03-19 11:11:00 · 8243 阅读 · 8 评论 -
中文搜索引擎技术揭密:网络蜘蛛(二)
来源:e800.com.cn 网络蜘蛛基本原理 网络蜘蛛即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成原创 2005-03-19 11:13:00 · 3429 阅读 · 0 评论 -
Lucene.Net的语言处理包中Lucene.Net.Analysis.Cn的Bug
Lucene.Net的语言处理包中Lucene.Net.Analysis.Cn的Bug 最近在对博客园的搜索程序进行改进。博客园的搜索功能用的是Lucene.net搜索引擎,当时博客园增加搜索功能时,Lucene.net还不支持中文分词, 后来得到http://www.cnblogs.com/yuhen/的帮助才解决这个问题。(最近博客园的搜索程序出了问题, 暂时改用google)。原创 2005-03-19 12:12:00 · 3069 阅读 · 0 评论 -
初探队与广度优先搜索
作 者:张中亮 一、 队 1、队的定义: 队是特殊的线性表之一,它只允许在队的一端插入,在队的另一端删除。插入一端叫队尾(T),删除一端叫队首(H),没有任何元素的队叫做空队。队列遵循"先进先出"原则,排队购物、买票等,就是最常见的队。 2、队的基本操作: (1)队的描述: type queue=array[1..100] of integer; var a原创 2005-03-19 12:27:00 · 1735 阅读 · 0 评论 -
中文搜索引擎技术揭密:网络蜘蛛(四)
来源:e800.com.cn 内容提取 搜索引擎建立网页索引,处理的对象是文本文件。对于网络蜘蛛来说,抓取下来网页包括各种格式,包括html、图片、doc、pdf、多媒体、动态网页及其它格式等。这些文件抓取下来后,需要把这些文件中的文本信息提取出来。准确提取这些文档的信息,一方面对搜索引擎的搜索准确性有重要作用,另一方面对于网络蜘蛛正确跟踪其它链接有一定影响。 对于doc、pdf等文档,这种由专业原创 2005-03-19 11:12:00 · 3353 阅读 · 0 评论 -
中文搜索引擎技术揭密:网络蜘蛛(三)
来源:e800.com.cn 网站与网络蜘蛛 网络蜘蛛需要抓取网页,不同于一般的访问,如果控制不好,则会引起网站服务器负担过重。今年4月,淘宝网( http://www.taobao.com/)就因为雅虎搜索引擎的网络蜘蛛抓取其数据引起淘宝网服务器的不稳定。网站是否就无法和网络蜘蛛交流呢?其实不然,有多种方法可以让网站和网络蜘蛛进行交流。一方面让网站管理员了解网络蜘蛛都来自哪儿,做了些什么,另一方原创 2005-03-19 11:13:00 · 2760 阅读 · 0 评论 -
浅谈互联网信息挖掘技术
章成敏 章成志中国药科大学图书馆 (南京农业大学信息管理系)摘 要 本文就互联网信息挖掘技术进行了简介,对网络信息挖掘中的关键技术、系统流程进行了阐述,结合农业网络信息挖掘系统的开发及应用,指出网络信息挖掘的应用前景。关键词 数据挖掘 互联网 网页 信息提取 About the WDM Technology Zhang Chengzhi (Department of Information Man原创 2005-03-19 11:19:00 · 2527 阅读 · 0 评论 -
做个类似的蜘蛛抓页,抓回的页如何去除html,js,cssj,剩余网页的内容?
主 题:做个类似的蜘蛛抓页,抓回的页如何去除html,js,cssj,剩余网页的内容?作 者:PCIBM (PCIBM) 信 誉 值:67所属论坛:Web 开发 ASP问题点数:50回复次数:4发表时间:2004-12-03 11:01:38做个类似的蜘蛛抓页,抓回的页如何去除html,js,cssj,剩余网页的内容?回复人: butcher2002(发言仅代表个人观点,不保证正确) (原创 2005-03-19 12:08:00 · 2082 阅读 · 0 评论