搜索基础
文章平均质量分 87
pangliyewanmei
这个作者很懒,什么都没留下…
展开
-
解密百度搜索技术细节
解密百度搜索技术细节<br />一、查询处理以及分词技术<br /> <br />随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料;作为技术人员,会把有代表性的搜索引擎作为研究对象. 搜索引擎经济的崛起,又一次向人们证明了网络所蕴藏的巨大商机。网络离开了搜索将只剩下空洞杂乱的数据,以及大量等待去费力挖掘的金矿。 <br /> <br />但是,如何设原创 2010-06-30 15:33:00 · 1110 阅读 · 0 评论 -
Spider
<br />Spider又叫WebCrawler或者Robot,是一个沿着链接漫游Web 文档集合的程序。它一般驻留在服务器上,通过给定的一些URL,利用HTTP等标准协议读取相应文档,然后以文档中包括的所有未访问过的URL作为新的起点,继续进行漫游,直到没有满足条件的新URL为止。WebCrawler的主要功能是自动从Internet上的各Web 站点抓取Web文档并从该Web文档中提取一些信息来描述该Web文档,为搜索引擎站点的数据库服务器追加和更新数据提供原始数据,这些数据包括标题、长度、文件建立时间原创 2010-07-01 10:10:00 · 565 阅读 · 0 评论 -
浅谈搜索引擎普遍原理
1、搜索引擎是什么?<br />搜索引擎就是为用户提供检索服务的系统。2、搜索引擎如何为用户提供检索服务?<br />1>从互联网上抓取网页<br />利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,(深度遍历和广度遍历)重复这过程,并把爬过的所有网页收集回来。<br />2>建立索引数据库 <br />由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、原创 2010-07-07 17:08:00 · 1441 阅读 · 0 评论 -
大规模超文本web搜索引擎剖析
The Anatomy of a Large-Scale Hypertextual Web Search EngineSergey Brin and Lawrence Page{sergey, page}@cs.stanford.eduComputer Science Department, Stanford University, Stanford, CA 94305 Abstract In this paper, we present Google, a prototype of a la原创 2010-07-08 18:02:00 · 3434 阅读 · 0 评论