搜索引擎概述
搜索引擎是一种Web上应用的软件系统,它以一定的策略在Web上搜集和发现信息,在对信息进行处理和组织后,为用户提供Web信息查询服务。
搜索引擎的发展阶段
-
分类目录时代
代表:Yahoo!,通过目录的方式、分类组织网站,用户在特定的分类目录中检索所需内容
-
文本检索时代
代表:Alta Vista,搜索引擎将用户所输入的检索关键词提交给服务器并查找相关度较高的网页返回给用户
-
Google和百度为代表
通过外部链接评价网站,并结合网页内容,智能地将相关信息进行整合
-
以用户为中心
通过大数据对用户的使用行为进行分析,返回的是用户可能感兴趣的个性化的检索结果
搜索引擎的工作原理
搜索引擎有三个功能模块:网页搜集、预处理和查询服务
-
网页搜集:搜索引擎通过程序爬虫程序,扫描特定网站的所有网页并将相关信息存入搜索引擎的数据库中
-
预处理:关键词提取、重复网页的消除、超链接分析和网页重要程度的计算(通过预处理建立索引数据库,保存搜集到的信息