01 网络爬虫的尺寸 Requests库----爬取网页,玩转网页Scrapy库----爬取网站,爬取系列网站定制开发----爬取全网 02 网络爬虫的限制 来源审查:判断User-Agent进行限制 检查来访HTTP协议头的User-Agent域,只响应浏览器或友好爬虫的访问。 发布公告:Robots协议 告知所有爬虫网站的爬取策略,要求爬虫遵守。 03 Robots协议 网络爬虫排除标准形式:在网站根目录下的Robots.txt文件。基本语法: User-agent:* Disallow:/