1 搜索引擎的历史
(1)人工手动分类
(2)文本检索分析
(3)链接分析
(4)用户为中心的用户行为分析
2垂直搜索与通用搜索
类似美团,阿里做的就是垂直搜索。百度谷歌为全文搜索
3 搜索引擎的3个核心问题
(1)用户需求是什么,这是搜索匹配的先决条件,只有知道需求精确匹配才有意义
(2)匹配过程,哪些内容与用户需求相关
(3)去除无用信息,使搜索数据可靠
4 爬虫抓取的策略
(1)宽度优先 即将下载的网页的url直接添加到待下载队列中
(2)非完全pagerank策略(parital pagerank)将已经下载的网页以及待下载url队列中的url运用pagerank计算优先级 ,然后对url队列中的url进行排序
(3ÿ