前言
request适合小型爬虫
中等请参照scrapy
一个开发工具。。。。。埋个坑先
第三方库其之一——request
request官网
基础知识
不bb,导库
import requests
网站限制爬虫都在robots文件里了
显式限制
隐式限制
爬取网站会读你的user-agent看你是浏览器还是其它的什么妖魔鬼怪~
爬取代码
查看user-agent信息。
修改request的user-agent信息
其中Mozilla是标准浏览器的意思,代表绝大多数浏览器,当然你可以写一些单一的浏览器例如chrome/5.0这样也行
模拟浏览器爬取全代码
搜索引擎爬取
(突然灵机一动想到了webview。。。。。)
二进制文件爬取
上述代码也可以爬视频的。。。。
os包故名思意是操作系统啦~~~