主要分两类
我们的重点是 2
利用聚焦爬虫完成自己的资源站点
锁定目标
定期抄录
工作流程
聚焦爬虫的流程详析
通用爬虫流程
种子URL
爬取数据
存取数据
提取有效信息
分词,检索,排名
》扩展,关于网站的排名
搜索引擎优化规则_360百科
https://baike.so.com/doc/6229890-6443219.html
传统搜索引擎的局限
淘宝网的千人千面
爬虫协议
https://www.taobao.com/robots.txt
尊守了协议的搜索结果
爬虫起家的公司
浅谈利用爬虫技术成就的那些商业公司
http://www.360doc.com/content/19/0227/19/2909773_817958541.shtml