python爬虫模块request_爬虫模块篇【requests】

最新推荐文章于 2024-06-26 12:00:14 发布

weixin_39851918

最新推荐文章于 2024-06-26 12:00:14 发布

阅读量217

点赞数 1

文章标签： python爬虫模块request

爬虫说白了就是模拟发送网络请求获取数据。在python里，requests可以很好地帮助我们完成这个过程。

本篇只讲怎么获取数据、控制台输出数据和保存数据。至于提取和解析数据在以后的篇目中会讲到。

一、安装

方法1：cmd输入“pip install requests”

方法2：pycharm配置解释器的位置输入“requests”，再点击右下角的install package

注意事项：1.指定版本安装格式：“pip install requests==X.X.X”。(默认安装最新版本)

2.如果下载速度慢或者报连接超时错误，可尝试用镜像源下载。例如使用豆瓣镜像源： “pip install -i https://pypi.douban.com/simple requests”。

二、需要知道的一些内容

1.最常用到两种网络请求方式：GET和POST。在python里相对应的用法是“requests.get()”和“requests.post()”。

2.GET方法查询字符串(名称/值对)是在 GET 请求的 URL 中发送的，而POST方法查询字符串(名称/值对)是在 POST 请求的 HTTP 消息主体中发送的。

3.在浏览器开发者工具的network里能直接体现出两者不同的内容：GET请求一般含有“Query String Parametrs”，POST请求含有“form data”或“Payload”

三、requests库的常用参数。

1.url。为我们需要请求的连接，为必填参数。用法示例：requests.get(url)或requests.get(url=url)。(GET、POST均适用)

2.headers。为我们发送请求的请求头，不是必填参数，但是一般网站都会有关于请求头的反爬，所以一般还是需要加上的。用法示例：requests.get(headers=headers)。(GET、POST均适用)

3.proxies。我们通过这个参数添加ip代理，不是必填参数，但是当我们大批量爬取的时候，一些网站会把我们识别出来，将我们的ip封掉，对此我们使用这个方法保证程序的运行。(GET、POST均适用)

4.cookies。归根结底用于身份验证。

5.params。用于GET请求内容的传递。我们一般不使用这个参数，因为我们可以直接把这部分内容添加到url里。

6.data。用于POST请求的表单传递。一般为POST的必填参数。在network内查看content-type的对应值(一般为application/x-www-form-urlencoded 或 multipart/form-data)，方可确定我们传递内容的具体形式。

7.json。用于POST请求的表单传递。一般为POST的必填参数。一般在表单为“Payload”类型时使用较多。和data的区别是，通过json的方式传递的任何类型，都会被转化成“json”数据类型。(在python叫字符串，在前端叫json)

8.timeout。用于设置请求超时的时间，单位为秒。如果在指定时间里仍没有与服务器连接成功，将会报超时错误，与异常搭配使用。

9.verify。访问某些网站会出现ssl错误，添加“verify=False”即可解决，可能添加后再次运行会报红字警告。如果想让这些不再显示，只需在程序最前加上“requests.packages.urllib3.disable_warnings()”

10.allow_redirects。重定向，默认为“True”。一般不需要添加改动。我一般用python分析api接口的时候才会使用这个参数。(我们大多数情况下直接在浏览器f12里分析就足够了)

11.requests.session()。维持回话状态，只需创建session类，其余和其他内容一样。(requests.session()和requests.Session()本质上是一样的，不理解的可以看他的源码)

四、所得数据的常用处理方法。

1.控制台输出。“response.text”或“response.content.decode('文字编码类型')”。(第一种有可能出现乱码，两种方法都可以指定解码方式，但第二种实际用起来更方便，所以优先推荐第二种)

2.把请求得到的文字、图片、音视频保存至本地。首先使用“response.content”获得二进制对象，然后“with open('你的文件名.要保存的格式','wb')as f”保存即可。

3.文字另一种保存本地的方法。首先“response.content.decode('文字编码类型')”。然后然后“with open('你的文件名.要保存的格式','w')as f”保存即可。

4.“json”数据。在python里叫做字符串的数据，一般直接“response.json()”即可。注意事项在以后的解析篇再详细说明。

五、可能存在的疑问

1.有没有别的请求类型？答：有。一共有8种。除了GET和POST，还有OPTIONS、HEAD、PUT、DELETE、TRACE和CONNECT。

2.GET是不是要比POST简单？答：不是。难在破解，请求方式单对我们来说无所谓。

3.这些够用吗，我想把所有的先学完再开始实战。答：绝对够用，没必要先学完。既然踏上了编程这条船，那就要明白一件事，我们不可能把所有都学会。只要够用，在学有余力的情况下再丰富自己就可以了

4.最难的爬虫是什么样的？答：与其说难得什么样，不如说哪些难破解。比如极客滑动验证码，反debug，js混淆，js自定义加密等等。(我也只能破破简单的)

5.内容太多了，头晕，怎么才能快速掌握这些内容？答：实操。我给了大家很多的示例，目的就是这个，大家可以找些自己感兴趣网站按着我的示例写爬虫。

6.很多加密的参数都是通过JavaScript生成的，有没有必要先学JavaScript？答：从我初学到现在来看，个人觉得没必要从头看到尾，简单了解下原生JavaScript、jQuery框架和require框架就可以了。

7.我现在破解不了，甚至以后也破解不了JavaScript该怎么办？答：学selenium和pyppeteer。这两个会在以后的篇章里说到。这两个基本按道理可以爬取到所有内容。只是有很多缺点，获取数据速度难最为致命。

六、请求示例

每次复制User-Agent太麻烦，下例均用useragentxxc库生成随机请求头。

源码地址：https://github.com/clearDreamXXC/python_teach/blob/master/requests%E4%BD%BF%E7%94%A8%E7%A4%BA%E4%BE%8B.py示例中需要的模块

1.最基本的请求。(我们在“三”里说了，绝大多数链接都有请求头的检验。我们把headers当成必填参数就可以了，一般填入“Referer”和“User-Agent”即可)堆糖网

2.post请求需要添加表单的示例。(content-type的不同取值对我们传递的表单格式会有不同要求。同时把这一键值对添加到headers里，这里不多解释，大家就直接加上以防万一)哔哩哔哩

3.需要设置请求超时的请求。(与异常搭配)steam模拟登陆

4.需要代理的请求。(http代理和https代理使用效果上是没有区别的)萝卜研投网

5.需要cookie的请求。(两种方式，第二种更常用：1.以字典形式加到参数cookies的位置。2.以字符串形式添加到headers里。)12306官网

6.控制台输出请求到的数据。(使用print)结合print

7.保存音频、视频、图片和文字的简单示例。抖音短视频

8.比较难的，各类参数都需要的请求。(在这里只列举难的但也不是很难的)携程国际-港澳台机票

weixin_39851918

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫模块request_爬虫模块篇【requests】

爬虫说白了就是模拟发送网络请求获取数据。在python里，requests可以很好地帮助我们完成这个过程。本篇只讲怎么获取数据、控制台输出数据和保存数据。至于提取和解析数据在以后的篇目中会讲到。一、安装方法1：cmd输入“pip install requests”方法2：pycharm配置解释器的位置输入“requests”，再点击右下角的install package注意事项：1.指定版本安装格...
复制链接

扫一扫