关于Python爬虫自己学习进步2（通用爬虫，聚焦爬虫）

根据使用环境不同，目的不同，分为通用爬虫和聚焦爬虫。

一、通用爬虫：搜索引擎用的爬虫系统。

目标：尽可能把互联网上所有的网页下载下来，放到本地服务器里形成备份，再对这些网页做相关处理（提取关键字、去掉广告等），最后提供一个用户检索的接口（如百度快照则是在一个时间点上爬取到的界面）。
抓取流程：

a)首先选取一部分已有的URL，把这些URL放到待爬取队列。 b)从队列里取出这些URL，然后解析DNS得到主机IP，然后去这个IP对应的服务器里下载html页面，保存到搜索引擎的本地服务器里，之后把这个爬过的URL放入已爬取队列。c)分析这些网页内容，找出网页里其他的URL连接，继续执行第二步，直到爬取条件结束。
搜索引擎如何获取一个新网站的URL：a)主动向搜索引擎提交（百度站长平台）；b)在其他网站里设置网站的外链；c)搜索引擎会和DNS服务商进行合作，可以快速收录新的网站。
通用爬虫并不是万物皆可爬，它也需要遵守规则：Robots协议：协议会指明通用爬虫可以爬取网页的权限。Robots.txt并不是所有爬虫都遵守，一般只有大型的搜索引擎爬虫才会遵守。所以个人..........
通用爬虫工作流程：爬取网页存储数据内容处理提供检索/排名服务
搜索引擎排名：1）PageRank值：根据网站的流量（点击量/浏览量/人气）统计，流量越高，排名越靠前，网站越值钱。2）竞价排名：谁给钱多，谁排名就高。
通用爬虫的缺点：1）只能提供和文本相关的内容（html、word、PDF）等等，但是不能提供多媒体（音乐、图片、视频）和二进制文件（程序，脚本）等等。2）提供的结果千篇一律，不能针对不同背景领域的人提供不同的搜索结果。3）不能理解人类语义上的检索（只能针对关键字查询）。