![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
搜索技术
NS西北风
为梦想而坚持。
展开
-
搜索引擎——原理技术与系统第二章第五节
但如果是为了向大规模搜索引擎稳定地提供网页数据,通常需要每天搜集上百万网页,而且是持续进行,情况则要复杂许多,核心是要综合解决效率、质量和“礼貌”的问题。这就是“控制器”的作用。所谓效率,在这里就是如何利用尽量少的资源(计算机设备、网络带宽、时间)来完成预定的网页搜集量。在批量搜集的场合,我们通常考虑半个月左右能搜集到的网页,自然是越多越好。这里需要指出三点:第一,即使原创 2013-11-23 16:30:35 · 854 阅读 · 0 评论 -
搜索引擎——原理技术与系统第一章第二章前四节
所谓“搜索引擎”,说到底是一个计算机应用软件系统,或者说是一个网络应用软件系统。从网络用户的角度看,它根据用户提交的类自然语言查询词或者短语,返回一系列很可能与该查询相关的网页信息,供用户进一步判断和选取。为了有效地做到这一点,它大致上被分成三个功能模块,或者三个子系统;即网页搜集,预处理和查询服务。 现代大规模高质量搜索即:网页搜集、预处理和查询服务。在具体搜集过程中,如何原创 2013-11-23 16:03:41 · 1030 阅读 · 0 评论 -
搜索引擎——原理技术与系统第三章
从本章开始的连续三章,我们讲解一个完整的搜索引擎TSE(Tiny Search Engine)的实现,编程语言采用C++,代码可以在[TSE,2004]下载。TSE包括三段式工作流程,分别对应本章的Web信息的搜集,第四章搜集信息的预处理和第五章的信息查询服务。超文本传输协议(Hypertext Transfer Protocol, HTTP)1是Web的基础协议。为了本章的完整,首先对HTT原创 2013-11-23 18:37:16 · 1079 阅读 · 0 评论