python爬虫Request

最新推荐文章于 2024-08-16 17:05:11 发布

Ve2dle

最新推荐文章于 2024-08-16 17:05:11 发布

阅读量1.5k

点赞数 1

文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/ve2dle/article/details/126814616

版权

【1】先确定是否为动态加载网站
【2】找URL规律 
【3】正则表达式 | xpath表达式 
【4】定义程序框架，补全并测试代码

1、request是什么

Requests是用python语言基于urllib编写的，采用的是Apache2 Licensed开源协议的HTTP库。与urllib相比，Requests更加方便，可以节约我们大量的工作，建议爬虫使用Requests库。

2、request爬取格式

【1】方法一 : requests.get()
【2】参数
   2.1) url
   2.2) headers
   2.3) timeout
   2.4) proxies

【3】方法二 ：requests.post()
【4】参数
    data

2.1request

①request.get

②request.post

2.2response

response方法，response方法获取网页的解码字符串通过上述例子我们可以看到，不管是get请求还是post请求，我们得到的返回都是一个Response[200]的对象，但是我们想要得到的，应该是与网页response下一样的字符串对象，这时就需要用到response的方法了。response.text：获取网页的HTML字符串，该方式往往会出现乱码，出现乱码使用response.encoding='utf-8'