简单的爬虫架构和网页下载器requests

最新推荐文章于 2024-05-01 11:16:47 发布

江淮-Z

最新推荐文章于 2024-05-01 11:16:47 发布

阅读量862

点赞数 1

分类专栏： python爬虫入门文章标签：爬虫 python 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_52031408/article/details/127894994

版权

python爬虫入门专栏收录该内容

3 篇文章 0 订阅

订阅专栏

目录

简单的爬虫架构：

网页下载器：

网页解析器:

网页下载器requests:

发送requests请求：

接收requests请求:

requests操作实例：

简单的爬虫架构：

网页下载器：

负责通过URL将网页进行下载，主要是进行相应的伪装处理模拟浏览器访问、下载网页

URL管理器:

负责URL的管理，包括带爬取和已爬取的URL、已经提供相应的接口函数（类似增删改查的函数）

网页解析器:

负责网页信息的解析，这里是解析方式视具体需求来确定

网页下载器requests:

Requests是一个优雅的，简单的Python HTTP库，常常用于爬虫对网页中的内容下载；

安装：pip install requests

发送requests请求：

requests.get/post(url,params,data,headers,timeout,verify,allow_redirects,cookies)

url:要下载的目标网页的url地址
params:字典形式，用于设置url后面的参数，比如 ?id=123&name=peiqi
data:字典或者字符串，一般用于post方法时提交数据
headers:设置user-agent，refer等请求头

我们的爬虫会默认向服务器发送爬取请求，而一般情况下网站是不允许被爬虫访问的，输出的text信息中会出现抱歉，无法访问等。我通过更改User-Agent等可以实现网站请求。

timeout:超时时间，秒为单位
verify:True/False，是否进行HTTP证书验证，默认是，需要自己设置证书地址
allow_redirects:True或False是否做重定向处理，默认为是
cookies:附带本地的cookies数据

接收requests请求:

r = requests.get/post(url)

r.status 查看请求状态码，200代表请求成功
r.status_code 查看网页编码，也可以修改编码，防止出现乱码情况
r.encoding
r.text 查看网页返回的内容
r.headers 查看返回的HTTP的headers
r.url 查看实际访问的url
r.content 以字节的方式返回内容，比如用于下载网页中的图片
r.cookies 服务器端写入本地的cookies数据

requests操作实例：

我们用ipython进行简单的requests操作，先导入requests(import requests),然后我们以百度的url地址来进行访问（www.baidu.com）

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
简单的爬虫架构和网页下载器requests

简单的爬虫架构和网页下载器requests
复制链接

扫一扫

专栏目录

江淮-Z CSDN认证博客专家 CSDN认证企业博客

码龄4年

102: 原创

29万+: 周排名

2万+: 总排名

5万+: 访问

: 等级

1591: 积分

565: 粉丝

321: 获赞

203: 评论

330: 收藏

私信

关注

热门文章

分类专栏

最新评论

git常用命令
内向的豪豪: 我也是经常看coderwhy老师的视频 , js node vue , 确实都很不错 . Js高级讲的很精髓
执行上下文-通俗易懂版
江淮-Z: 文章参考：https://blog.csdn.net/m0_53375764/article/details/124282808 https://blog.csdn.net/weixin_45735755/article/details/126208749 coderwhy
执行上下文-通俗易懂版
江淮-Z: 文章参考：https://blog.csdn.net/m0_53375764/article/details/124282808 https://blog.csdn.net/weixin_45735755/article/details/126208749
git常用命令
江淮-Z: git config push.default simple/current/upstream
git常用命令
江淮-Z: 图片来自coderwhy，学习回顾使用

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

江淮-Z 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。