概述
搜索引擎概述
- 桥梁——引导用户找到所求
- 满足用户需求的过程
- 连接人与内容、人与服务
- 爬虫:数据收集中心,互联网世界的缩影
- 索引系统:分析整理爬虫收集到的资源,为检索系统提供数据
- 检索系统:从预处理好的资源中挑选用户最满意的结果最快最好的展现。
基于MapReduce的互联网网页大数据建库系统
- 将网页库下载到文件系统中形成网页文件(HTML)(HDFS)
- 通过Parser提炼、抽取原网页文件生成处理过的网页文件(HDFS)。
- Inverter对处理过的网页文件进行倒排后,建立索引生成小索引文件(HDFS)
- 索引合并后形成正式索引文件(HDFS)后对外进行服务
具体流程如下:
- 目的:建立供检索使用的索引和摘要
- 输入:网页
- 输出:索引和摘要
- 处理:多轮map-reduce
- 页面分析和处理(parser-extractor)
- 页面属性小库输出(splitter)
- 小库正排转倒排(invert-index)
- 小库合并大库(