搜索引擎作为互联网发展中至关重要的一种应用,已经成为互联网各个领域的制高点,其重要性不言而喻。搜索引擎领域也是互联网应用中不多见的以核心技术作为其命脉的领域,搜索引擎各个子系统是如何设计的?这成为广大技术人员和搜索引擎优化人员密切关注的内容。
由于对网络搜素过程不是很了解,刚好又是在实验室看到这本书《这就是搜索引擎:核心技术详解》,于是就踏上了对搜索引擎的学习之路。
这本书最大的特点是内容新颖全面而又通俗易懂。对于实际搜索引擎所涉及的各种核心技术都有全面细致的介绍,除了作为搜索系统核心的网络爬虫、索引系统、排序系统、链接分析及用户分析外,还包括网页反作弊、缓存管理、网页去重技术等实际搜索引擎必须关注的技术,同时用相当大的篇幅讲解了云计算与云存储的核心技术原理。同时,其也密切关注搜索引擎发展的前沿技术:Google的咖啡因系统及Megastore等云计算新技术、百度的暗网抓取技术阿拉丁计划、内容农场作弊、机器学习排序等。
接下来,简单的给大家讲述下整个信息检索的过程。。。
搜索引擎的基本工作原理包括如下三个过程:首先在互联网中发现、搜集网页信息;同时对信息进行提取和组织建立索引库;再由检索器根据用户输入的查询关键字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。
3、提供检索服务。用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。这就要求能够根据用户输入的关键词,推测出用户的搜索意图。
总的来说,这本书还是很详细的讲解了搜索引擎的过程,使大家对信息检索、网络搜索过程有了一定的认识,当然这其中包括一些比较经典的算法,在以后会慢慢给出详解。
本文出自 “卡布奇诺” 博客,请务必保留此出处http://tianxiaoyong.blog.51cto.com/6962715/1253860