搜索引擎及其它的4种设计方案

本文介绍了搜索引擎的工作原理和发展历程,包括目录索引类、全文检索类和元搜索引擎。重点讨论了面对大规模数据时,分布式搜索引擎的四种设计方案:分布式元搜索、散列分布搜索、P2P分布搜索和局部遍历型搜索,分析了各自的优缺点。
摘要由CSDN通过智能技术生成

2.2.1搜索引擎

关键词搜索引擎                                          

互联网是知识和信息的海洋,如何快速而准确地获取网络——这个海洋中的信息对大家来说是一个不可回避的课题,信息查询是互联网提供的一项非常重要的服务,如果能够善于利用,将给我们的工作、学习和日常生活带来极大的方便。搜索引擎就是为我们提供这方面服务的工具。

1.什么是搜索引擎

搜索引擎(Search Engine)指用于因特网信息查找的网络工具。它的主要任务是搜索其他网站上的信息,并将这些信息进行分类并建立索引,然后把索引的内容放到数据库中,当用户向搜索引擎提交搜索请求的时候,搜索引擎会从数据库中找出匹配的资料反馈给用户,用户再根据这些信息访问相应的网站,从而找到自己需要的资料。

搜索引擎的原理,可以看做三步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。从互联网上抓取网页——利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。建立索引数据库——由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。在索引数据库中搜索排序——当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。

常用的搜索引擎:

百度:www.baidu.com

Googlewww.google.com

北大天网:e.pku.edu.cn

雅虎:www.yahoo.com.cn

搜狐:www.sohu.com

中国搜索:www.huicong.com    http://www.zhongsou.com/

2.搜索引擎的发展历史

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值