原文链接
图片链接 图1. 互联网搜索引擎架构图
抓取器:从互联网上抓取网页,将垃圾网页过滤;
索引器:分析网页的内容,计算网页的重要度,将网页索引;
用户界面:接受查询语句,分析查询语句的内容;
排序器:从索引中检索出含有查询词的网页,实行查询语句与网页的匹配,将网页按相关度、重要度等进行排序;
用户界面将排序结果展示给用户,同时收集用户搜索行为数据。
- 搜索引擎基于大规模分布式计算和统计机器学习。
- 机器学习在互联网搜索中的应用
排序学习
网页重要度学习
匹配学习
话题模型学习
查询语句转换学习
//还需要再深入了解