计算机网络搜索引擎的分类和技术,2020年计算机三级考试网络技术备考要点:搜索引擎的原理和组成...

【导语】2020年计算机三级考试备考模式已启动,为了方便考生及时有效的备考,下面无忧考网为您精心整理了2020年计算机三级考试网络技术备考要点:搜索引擎的原理和组成,供大家的参考。如想获取更多计算机三级考试的模拟题及备考资料,请关注无忧考网的更新。

25de97d83a94f0f9ceba5e33e470d1d7.png

2020年计算机三级考试网络技术备考要点:搜索引擎的原理和组成

(1)搜索引擎的原理

搜索引擎的原理起源于传统的信息全文检索理论,即计算机程序通过扫描一篇文章中的所有词,建立以词为单位的排序文件,检索程序根据检索词在每篇文章中出现的频率和概率,对包含这些检索词的文章排序,后输出排序结果。

(2)全文搜索引擎功能模块的组成

现在的全文搜索引擎一般由搜索器、索引器、检索器和用户接口4个部分组成。

①搜索器。搜索器也称为“蜘蛛”、“机器人”或“爬虫”,实际上是一种基于Web的程序。搜索器在Internet上逐个访问服务器来收集信息,它通过请求Web站点上的HTML网页来采集该HTML网页,并建立一个网站的关键字列表。搜索器建立关键字列表的过程称为网络爬行。

②索引器。索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。索引器可使用集中式索引算法或分布式索引算法。索引算法对索引器的性能有很大的影响。一个搜索引擎的有效性在很大程度上取决于索引的质量。

③检索器。检索器的功能是根据用户查询在索引库中快速地检索出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性的反馈机制。网页检索器是一个在Web服务器上运行的CGI(公共网关接口)程序。

④用户接口。用户接口的作用是输入用户查询,显示查询结果,提供用户相关性反馈机制。用户接口可以分为简单接口和复杂接口两种。

(3)目录导航式搜索引擎和网页搜索引擎的组成

目录导航式搜索引擎的信息搜集系统主要由人工完成,搜索引擎的标引专家依靠手工来搜寻不断出现的新网站,给每个网站一个标题和大概描述,将其放入相应的类目体系中。在页面上体现为每个类目路径下排列着的相关网站,所以也称为目录导航。目录导航式搜索引擎提供两种查询接口形式:一种是直接单击目录树,另一种是关键字检索。

2829f2ca24f0d0090cbba57f30759f23.png

2020年计算机三级考试网络技术备考要点:搜索引擎的原理和组成.doc

下载Word文档到电脑,方便收藏和打印[全文共977字]

编辑推荐:

8b95f2eb3d3f7ce4dc3bf1178c74941e.png

8b95f2eb3d3f7ce4dc3bf1178c74941e.png

8b95f2eb3d3f7ce4dc3bf1178c74941e.png

下载Word文档

本书以我们设计、实现并维护运行北大“天网”搜索引擎的经验,介绍大规模搜索引擎的工作原理和实现技术。我们要向读者揭示,为什么向搜索引擎输入一个关键词或者短语,就能够在秒钟内得到那么多相关的文档及其摘要,而点击其中的链接就能够被引导到文档的全文,且其中相当一部分可能正是用户需要的。 我们按照上、中、下三篇展开相关的内容。上篇讲搜索引擎的基本工作原理,要解决的是为什么搜索引擎能提供如此信息查找服务的问题,以及它在功能上有什么本质的局限性。这一篇的内容包括网页的搜集过程,网页信息的提取、组织方式和索引结构,查询提交和响应的过程以及结果产生,等 i 等。这其中,虽然我们假定读者熟悉URL,HTML,HTTP,CGI,MIME等基本概念,但在上下文中也给予了必要的介绍,力图保持行文的流畅性。这一部分内容对于需要构建小规模搜索引擎的研究人员会有直接的参考价值。 中篇讨论和大规模实用搜索引擎有关的技术问题。所谓大规模在这里指至少维护超过1千万的网页信息,提供相关的查询服务。所涉及的内容包括并行分布处理技术的应用,数据局部性的开发,缓存技术的应用,以及搜集的网页在提供服务之前的预处理问题和高效倒排文件的建立技术等等。这一部分的讨论有比较强的计算机系统结构的风格,我们向读者展示计算机系统结构课程中的那些概念是如何生动地体现在一个实际应用系统中的。这一部分的内容对构建大规模数字图书馆的技术人员也应该有帮助。 下篇介绍挑战性更强一些的内容。一般地讲,前面所述可以称为是“通用搜索引擎”,为最广泛的人群提供信息查询服务是它的基本宗旨。这意味着它的应用模式必须尽量简单,即关键词或查询短语的提交和匹配响应。尽管这已经可以解决许多问题了,但对有些重要的信息需求依然显得力不从心。例如,一个人可能会关心最近半来网上出现了哪些关于他(她)的信息,一个企业可能要关心它做了一次大规模促销活动后一个月内网上有什么反响,一个政府机构可能会关心在一项政策法规颁布后的网上舆论。面向主题和个性化的信息查询服务就是我们试图描述的一种基本途径。这一部分内容更多的和网上中文信息处理技术有关。更准确地讲,我们要介绍网络与并行分布处理技术与中文处理技术的结合,从而实现大规模、高性能、高质量、有针对性地网上信息查询服务。这一部分内容反过来可能对从事中文信息处理的研究人员有启发作用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值