搜索引擎体系结构
1. 下载系统::负责从万维网上下载网页,并且保持对万维网编号的同步。
2. 分析系统:抽取下载系统得到的网页数据,并进行PageRank和分词计算。
3. 索引系统:将分析系统处理后的网页对象索引入库。
4. 检索系统:分析用户提交的请求,然后从索引库中检索出相关网页并将网页排序后,以查询结果的形式返回给用户。
分析系统: 信息抽取、网页消重、中文分词和pageRank计算。
搜索引擎体系结构
1. 下载系统::负责从万维网上下载网页,并且保持对万维网编号的同步。
2. 分析系统:抽取下载系统得到的网页数据,并进行PageRank和分词计算。
3. 索引系统:将分析系统处理后的网页对象索引入库。
4. 检索系统:分析用户提交的请求,然后从索引库中检索出相关网页并将网页排序后,以查询结果的形式返回给用户。
分析系统: 信息抽取、网页消重、中文分词和pageRank计算。