python爬虫（一）Requests库

最新推荐文章于 2023-10-27 16:25:38 发布

坐起而行之

最新推荐文章于 2023-10-27 16:25:38 发布

阅读量367

点赞数

分类专栏： python requests 文章标签： requests python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40042590/article/details/89290782

版权

本文介绍了Python爬虫的基础知识，包括网络爬虫的定义、类型和Robots协议。详细讲解了HTTP请求和响应处理，特别是GET和POST方法。接着阐述了Python内置的urllib包及其子模块的功能，并对比了urllib3和requests库，强调requests库的易用性和功能强大，如参数传递、请求头设置、文件上传、超时控制、会话管理以及SSL证书验证和代理配置。

摘要由CSDN通过智能技术生成

一、概述

1、爬虫，应称为网络爬虫，也叫网页蜘蛛、网络机器人、网络蚂蚁等；

2、搜索引擎，就是网络爬虫的应用者；

二、爬虫分类

1、通用爬虫：常见的就是搜索引擎；

2、聚焦爬虫：有针对性的编写特定领域数据的爬取程序，是面向主题的爬虫；

三、Robots协议

简单来说就是告诉爬虫引擎什么可以爬取，“爬亦有道”；

四、爬虫的HTTP请求和响应处理

其实就是爬取网页就是通过HTTP协议访问网页，不过通过浏览器访问往往是人的行为，把这种行为变成使用程序来访问；

1、最常用的HTTP交互数据的方法是GET、POST；

1) GET方法，数据是通过URL传递的，也就是说数据是在HTTP报文的header部分；

2) POST方法，数据是放在HTTP报文的body部分体骄傲的；

有些网站是反爬虫的，所以要把爬虫伪装成浏览器，使用User-Agent来伪装为浏览器；

五、urllib包

Python2中提供了urllib和urllib2。urllib提供较为底层的接口，urllib2对urllib进行了进一步封装。Python3中将urllib合并到了urllib2中，并更名为标准库urllib包；

urllib是标准库，它是一个工具包模块，包含下面常用模块来处理url：

最低0.47元/天解锁文章

坐起而行之

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python爬虫（一）Requests库

一、概述1、爬虫，应称为网络爬虫，也叫网页蜘蛛、网络机器人、网络蚂蚁等；2、搜索引擎，就是网络爬虫的应用者；二、爬虫分类1、通用爬虫：常见的就是搜索引擎；2、聚焦爬虫：有针对性的编写特定领域数据的爬取程序，是面向主题的爬虫；三、Robots协议简单来说就是告诉爬虫引擎什么可以爬取，“爬亦有道”；四、爬虫的HTTP请求和响应处理其实就是爬取...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。