走进搜索引擎 笔记【一】

本文内容参考自《走进搜索引擎》(第2版)潘雪峰 花贵春 梁斌 电子工业出版社 如转载请注明出处

第一章 引论

1.1 搜索引擎概述

1.1.1 搜索引擎定义:

(1)搜索引擎指自动从因特网搜集信息,经过一定整理以后,提供给用户进行查询的系统。

        【维基百科】http://zh.wikipedia.org/wiki/%E6%90%9C%E5%B0%8B%E5%BC%95%E6%93%8E

(2)搜索引擎是指根据一定的策略、运用特定的计算机程序互联网上搜集信息,在对信息进行组织处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统

          【百度百科】http://baike.baidu.com/link?url=BCQy7Ik-EMZ6yD89gnLOzWbRAlG6BzMEh8Gl4uK2xoTCinyGHyDxIFOZMEweFKez

(3)一种用来在计算机网络,特别是在万维网上检索各种文件的计算机程序。【WordNet】

因此,与其说搜索引擎是一个查询系统,不如说它是一个用户定义的信息聚合系统。

1.1.2 搜索引擎分类

(1)目录是搜索引擎:信息检索通常为人工发现信息,依靠编辑人员的知识进行甄选,并进行分类;早起的雅虎和搜狐都是这种搜索引擎。

(2)全文搜索引擎:针对万维网上所有网页进行全文搜索的搜索引擎,主要由下载系统、索引系统及查询系统组成;谷歌,百度等公司属于该类型。

(3)元搜索引擎:将用户的索引词提交给多个搜索引擎根据其返回的查询结果进行进一步筛选及重新排序,之后在返回给用户;

代表网站:www.webcrawler.comhttp://www.dogpile.com/

 

1.2 搜索引擎的主要需求

【快】反映搜索引擎的查询速度,一般的商用引擎反映速度在毫秒级;主要受分词效果,索引库的效率,分布查询的处理功能和查询缓存的命中率影响。

【全】一般用查全率(Recall)作为衡量检索是否全面的度量指标,Recall=N(索引出网页数量)/M(包含索引信息的全部网页数量)*100%;主要取决于网页索引库中条目数量。

【准】一般以查准率(Precision)作为衡量检索是否准确的指标,Precision=P(与查询相关的网页)/N(全部索引的网页数)*100%;主要取决于网页排序。

【稳】长期稳定提供服务。

【省】据美国哈佛大学物理学者研究以台式机在Google网站执行两次搜索,所制作的二氧化碳相当于煮一壶茶;主要考虑电能、带宽、机器折旧。

 

1.3 搜索引擎四大系统

第一步:下载系统(爬行)
搜索引擎是通过一种特定规律的软件跟踪网页的链接,从一个链接爬到另外一个链接,像蜘蛛在蜘蛛网上爬行一样,所以被称为“蜘蛛”也被称为“机器人”。搜索引擎蜘蛛的爬行是被输入了一定的规则的,它需要遵从一些命令或文件的内容。
第二步:分析系统(抓取存储)
搜索引擎是通过蜘蛛跟踪链接爬行到网页,并将爬行的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。搜索引擎蜘蛛在抓取页面时,也做一定的重复内容 检测,一旦遇到权重很低的 网站上有大量抄袭、采集或者复制的内容,很可能就不再爬行。
第三步:索引系统(预处理)
搜索引擎将蜘蛛抓取回来的页面,进行各种步骤的预处理。
⒈提取文字
⒉中文分词
⒊去停止词
⒋消除噪音(搜索引擎需要识别并消除这些噪声,比如版权声明文字、导航条、广告等……)
5.正向索引
6.倒排索引
7.链接关系计算
8.特殊文件处理
除了HTML 文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如 PDF、Word、WPS、XLS、PPT、TXT 文件等。我们在搜索结果中也经常会看到这些文件类型。 但搜索引擎还不能处理图片、视频、Flash 这类非文字内容,也不能执行脚本和程序。
第四步:查询系统(排名)
用户在搜索框输入关键词后,排名程序调用索引库数据,计算排名显示给用户,排名过程与用户直接互动的。但是,由于搜索引擎的数据量庞大,虽然能达到每日都有小的更新,但是一般情况搜索引擎的排名规则都是根据日、周、月阶段性不同幅度的更新。

从整体上看,下载、分析、索引系统属于离线部分,查询系统属于在线部分。

 

 

第二章 搜索引擎的下载系统

 

2.1 爬虫发展史

【世界上第一个爬虫】又MIT的学生马休 格雷与1993年写成,主要用于抓去万维网网页信息。

【应用于搜索引擎】1994年Michael Mauldin将一个蜘蛛程序写入索引程序,创立搜素引擎公司Lycos http://www.lycos.com/

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
内容提要编辑 在网络普及的今天,人们经常在信息海洋中彷徨,在万维网迷宫般的复杂与魅力之间挣扎。直到搜索引擎这一伟大的技术产生,才使得人们犹如找到了走出迷宫的灯塔,可以非常便捷地找到自己所需要的信息。 正是因为搜索引擎离我们越来越近,所以越来越多的人期待着能够揭开她神秘的面纱。其实搜索引擎并不是变幻莫测的大海,也不是高不可攀的山峰。请拿起本书,它就是引领你的火炬,它就是你身边的伙伴,它将带着你走进搜索引擎。在那里,你必将会被搜索引擎精致的设计和宏伟的架构所征服。 本书由搜索引擎开发研究领域年轻而有活力的科学家精心编写,作者将自己对搜索引擎的深刻理解和实际应用巧妙地结合,使得从未接触过搜索引擎原理的读者也能够轻松地在搜索引擎的大厦中遨游一番。 编辑推荐编辑 《走进搜索引擎》是一本搜索引擎原理与技术的入门书籍,面向那些有志从事搜索引擎行业的青年学生、需要完整理解并优化搜索引擎的专业技术人员、搜索引擎的营销人员,以及网站的负责人等,是从事搜索引擎开发的工程技术人员难得的参考书,也可作为大中专院校相关专业的教学辅导书。 图书作者编辑 梁斌毕业于南京大学,获得软件工程硕士学位,曾经发表过多篇论文,获得1项国家专利,作者主要的兴趣方向包括数据挖掘、Wed挖掘、搜索引擎和软件工程等,目前在清华大学信息科学与技术国家实验室从事搜索引擎相关研究工作。 图书目录编辑 第一章引言 第一节什么是搜索引擎 第二节搜索引擎的发展简史 搜索引擎的发展历史 第三节搜索引擎大事快览 第四节国内著名搜索引擎 百度 中搜 天网 搜狗 参考文献 第二章搜索引擎概貌 第一节搜索引擎的主要需求 查得快 查得全 查得准 查得稳 第二节搜索引擎的大系统 搜索引擎的体系结构 第三章搜索引擎的下载系统 第一节爬虫的发展历史 世界上第一个爬虫 爬虫的发展历程 第二节万维网及其网页分析 蝴蝶结型的万维网 万维网的直径 万维网的规模及变化特征 网页的特征 第三节有关爬虫的基本概念 爬虫 种子站点 URL Backlinks

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值