1、搜索引擎的基本结构
不同类型的搜索引擎存在不同的差异,但其基本的功能结构是相同的。通用互联网搜索引擎系统通常由 5 大部分组成:网络爬虫、分析器、索引器、搜索器、用户查询接口。
搜索引擎的工作流程:
1.利用爬虫程序采集信息资源。给程序一个初始URL地址,它会以此为入口开始爬行,并沿着网页链接不断地发现新的 网页,并把爬到的网页下载到本地。
2.分析器对下载的网页进行分析及整理,并将网页重要信息提取出来。
3.利用索引器来对抽取的信息建立索引,通常采用关键字作为索引项,最后将信息存入索引数据库中。
4.当用户在用户界面输入查询信息时,索引器会从索引数据库中进行信息匹配,按相关度排序最终反馈给用户。