Internet中蕴含的信息资源非常丰富,但如何在这浩瀚如海的信息空间内快速找到自己所需要的资源呢?我们需要借助于搜索引擎。在网络上,提供搜索功能的网站非常多,如百度、谷歌、搜狗等,另外有一些门户网站也提供了搜索功能,如新浪、网易、搜狐、腾讯等。在这些网站上都可以搜索到我们需要的信息。
▶搜索引擎的定义
搜索引擎是为用户提供检索服务的系统,它根据一定的策略,运用特定的计算机程序搜集互联网上的信息,并对信息进行组织和处理,将处理后的结果显示给用户,通俗地理解,搜索引擎就是一个网站,但它专门为网民们提供信息检索服务。与一般网站的区别是,它自动搜寻Web服务器的信息,然后将信息进行分类、建立索引,再把索引的内容放到数据库中,供用户进行检索。搜索引擎的工作过程分为3个方面。
(1)抓取网页。每个搜索引擎都有自己的网页抓取程序,通常称为“蜘蛛”(Spider)程序、“爬虫”(Crawler)程序或“机器人”(Robot)程序,这3种叫法意义相同,作用是顺着网页中的超链接连续抓取网页,被抓取的网页称为网页快照。
(2)处理网页。搜索引擎抓取网页以后,需要进行一系列处理工作,例如,提取关键字、建立索引文件、删除重复网页、判断网页类型、分析超链接等,最后送至网页数据库。
(3)提供检索服务。当用户输入关键字进行检索时,搜索引擎将从网页数据库中找到匹配的网页,以列表的形式罗列出来,供用户查看。
▶搜索引擎的基本类型
按照搜索引擎的工作方式划分,可以将搜索引擎分为4种基本类型。
▶1.全文索引
全文索引引擎是名副其实的搜索引擎,国外代表有Google,国内则有著名的百度搜索。它们都是从互联网提取各个网站的信息并建立网页数据库,然后从数据库中检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。
全文搜索引擎可分为两类:一类拥有自己的网页抓取、索引与检索系统,如Google和百度;另一类是租用其他搜索引擎的数据库,如Lycos搜索引擎。
▶2.目录索引
目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎。它将网站链接按照不同的分类标准进行分类,然后以目录列表的形式提供给用户,用户不需要依靠关键字来查询,按照分类目录就可以找到所需要的信息。
目录索引中最具代表性的网站就是Yahoo,新浪、网易也属于这一类。它们将互联网中的信息资源按照一定的规则整理成目录,用户逐级浏览就可以找到自己所需要的内容。
▶3.元搜索引擎
元搜索引擎又称多搜索引擎,它是一种对多个搜索引擎的搜索结果进行重新汇集、筛选、删除、合并等优化处理的搜索引擎。“元”为“总的”“超越”之意,元搜索引擎就是对多个独立搜索引擎的整合、调用、控制和优化利用。
著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo。
▶4.垂直搜索引擎
垂直搜索引擎是2006年以后逐步兴起的一种搜索引擎,它专注于特定的搜索领域和搜索需求,如机票搜索、旅游搜索、生活拽索、小说搜索等。垂直搜索引擎是针对某一个行业的专业使系引擎,是通用搜索引擎的细分和延伸,它对网页数据库中的某类信息进行整合,抽取出需要的数据进行处理并返回给用户
▶确定关键字的原则
搜索网络信息时,关键字的选择非张重要,它直接影响到我们的搜索结果。关键字的选择要准确,有代表性,符合搜索的主题。确定关键字时可以参照以下原则。
▶1.提炼要准确
提炼查询关键子的时候一定要准确,如果在询的关键字不准确,就会搜索出大量的无关信息,与自己要查询的内容毫不相关。
▶2.切忌使用错别字
在搜索引擎中输入关键字时,最好不要出现错别字,特别是使用拼音输入法时,要确保输入关键字的正确性。如果关键字中使用了错别字,会大大降低搜索的效率,致使返回的信息量变少,甚至搜索到错误信息。
▶3.不要使用口语化语言
我们的日常交流主要运用口语,但是在网络上搜索信息时,要尽可能地避免使用口语作为关键字,这样可能得不到想要的结果。
▶4.使用多个关键字
搜索信息时要学会运用搜索法则,运用多个关键字来缩小搜索范围,这样更容易得到结果。
互联网上的搜索引擎种类很多,但它们的技术基础都是互联网技术、数据库技术以及一些人工智能技术和多媒体技术。按照搜索引擎提供的功能和使用的技术,可以将搜索引擎划分为多种类型,下面介绍其常用的分类方法。
▶常用的搜索引擎
目前,许多大型网站都提供了搜索引擎服务,如Google、百度、雅虎、搜狐、新浪、网易等。下面将对其中使用较多的搜索引擎进行介绍。
▶1.百度
百度由毕业于北京大学的李彦宏及徐勇于1999年年底在美国硅谷创建,2000年百度回国发展。“众里寻她千百度”,“百度”两字正是源自辛弃疾的《青玉案》,它象征着百度对中文信息检索技术执着的追求。百度是全球最大的中文搜索引擎,其网址是http;//www.baidu.com。在地址栏中输入该网址,按Enter键即可打开百度搜索首页。
百度搜索页面与Google搜索页面大同小异,查询框上面提供了多个分类链接,单击某超链接,可把搜索范围规定在该类里面。例如,在搜索文本框中输人要查找的关键字“二进制”,然后单击“百度一下”按钮,即可显示与此有关的相应网页列表。
打开搜索页面后,每个搜索链接后面都包含一个“百度快照”超链接,百度快照是百度网站最具魅力和实用价值的一项服务。用户在上网的时候经常会遇到“该页无法显示”(找不到网页的出错信息)的情况,造成这种情况的原因很多,如网站服务器暂时中断或堵塞、网站已经更改链接等,百度搜索引擎在搜索过程中已先预览各网站,拍下网页的快照,保存了几乎所有网站的大部分页面,使用户在不能链接所需网站时,也可通过百度快照救急。
▶2.搜狐
搜狐是目前Internet上最著名也是最全面的中文网站搜索引擎,网址是http://www.sohu.com/。搜狐提供的是中文网站搜索,更符合中国用户的需求。该网站并不是一个专门的搜索网站,其综合性很强,涉及Internet的各项功能,如网络新闻、股市行情、网上聊天、BBS、免费电子邮箱、购物、求职等,因而从某种意义上说,搜狐是一个“网站大杂烩”。由于搜狐收录的中文网站齐全,如果要搜索中文网站,搜狐应该是首选之一。