【1】先确定是否为动态加载网站
【2】找URL规律
【3】正则表达式 | xpath表达式
【4】定义程序框架,补全并测试代码
1、request是什么
Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库。与urllib相比,Requests更加方便,可以节约我们大量的工作,建议爬虫使用Requests库。
2、request爬取格式
【1】方法一 : requests.get()
【2】参数
2.1) url
2.2) headers
2.3) timeout
2.4) proxies
【3】方法二 :requests.post()
【4】参数
data
2.1request
①request.get
②request.post
2.2response
response方法,response方法 获取网页的解码字符串 通过上述例子我们可以看到,不管是get请求还是post请求,我们得到的返回都是一个Response[200]的对象,但是我们想要得到的,应该是与网页response下一样的字符串对象,这时就需要用到response的方法了。response.text:获取网页的HTML字符串,该方式往往会出现乱码,出现乱码使用response.encoding='utf-8'
定制headers