话说搜索
tanshudan
乖巧可爱且孝顺温婉的女儿
勤奋努力却资质平庸的程序员
展开
-
网页搜集
根据经验,一般下载一篇网页大约需要1s左右,所以在用户查询时即时搜索是不太现实的,所以搜索引擎服务应该事先搜索一批网页。这批网页如何维护?两种基本的考虑: 定期搜索,也称批量搜索,每次搜索替换上一次的内容。每次搜索都重新来,每次搜索开销比较大,两次搜索的间隔比较长。好处:系统实现简单,时效性不高,还有重复搜索带来的额外带宽需要。 增量搜索,开始时搜索一批,往后只是搜索新出现的网页、更改有变原创 2008-11-23 20:37:00 · 459 阅读 · 0 评论 -
工作原理
搜索引擎,一种在web上应用的软件系统,它以一定的策略在web上搜集和发现信息,在对信息进行处理和组织后,为用户提供web信息查询服务。一般来说,它大致上被分成网页搜集、预处理和查询服务三个工作流程 从网络用户的角度看,搜索引擎的作用仅仅是在一个可以接受的时间内返回一个和该用户查询匹配的网页信息列表。可以接受的时间,也就是响应时间。对于在Web上面向广大用户提供服务的软件原创 2008-11-22 20:27:00 · 392 阅读 · 0 评论 -
预处理
对服务子程序来说,现行最有效的数据结构是“倒排文件”,即用文档中所含关键词为索引,文档作为索引目标的一种结构。从海量的原始网页集合到形成倒排文件的过程,即预处理。主要包含四个方面:1. 关键字的抽取: 网页文档源文件的大小(字节量)通常大约是其中内容大小的4倍。除内容外,还含html标记、广告、版权信息等等,这些情况给有效的信息查询带来挑战,也带来机遇。为了支持查询服务,需要从网页源原创 2008-12-01 21:55:00 · 446 阅读 · 0 评论 -
查询服务
正如在工作原理部分所说,但我们输入某词条时,搜索引擎返回一个包含标题、URL、摘要等的信息列表。如何从网页集合生成一个列表,是服务子系统的主要工作。服务子系统是在服务进行的过程中涉及的相关软件程序,而为这些软件程序事先准备数据的程序都算在预处理子系统中,主要有三个方面:1. 查询方式和匹配 查询方式指的是系统允许用户提交查询的形式。一般认为,对于普通网络用户来说,最自然的方式就是“要原创 2008-12-10 15:13:00 · 544 阅读 · 0 评论