python抓取网页内容401应该用哪个库_python3使用requests模块爬取页面内容入门

最新推荐文章于 2024-06-05 10:42:03 发布

坂田月半

最新推荐文章于 2024-06-05 10:42:03 发布

阅读量529

点赞数

文章标签： python抓取网页内容401应该用哪个库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42513028/article/details/114431191

版权

本文介绍了如何使用Python的requests模块进行网页抓取，包括安装requests库、发送GET请求、传递URL参数、获取响应内容、检查响应状态码等基本操作，并提供了两个实际案例，包括抓取网页表格内容和调用GitHub API。

摘要由CSDN通过智能技术生成

python的爬虫相关模块有很多，除了requests模块，再如urllib和pycurl以及tornado等。相比而言，requests模块是相对简单易上手的。通过文本，大家可以迅速学会使用python的requests模块爬取页码内容。

1.Requests 唯一的一个非转基因的 Python HTTP 库，人类可以安全享用。

官网：http://cn.python-requests.org/zh_CN/latest/

1.安装requests模块

这里我是通过pip方式进行安装：

> pip install requests

安装requests

运行import requests，如果没提示错误，那说明已经安装成功了！

2.安装beautifulsoup4

pip install beautifulsoup4

3.requests模块浅析

1)发送请求

首先当然是要导入 Requests 模块：

import requests

然后，获取目标抓取网页。这里我以简书为例：

response = requests.get('https://www.jianshu.com/u/5328be71bdc1')

这里返回一个名为 response 的响应对象。从这个对象中获取所有我们想要的信息。这里的get是http的响应方法，所以举一反三,也可以将其替换为put、delete、post、head等方法。

2)传递URL参数

有时我们想为 URL 的查询字符串传递某种数据。如果你是手工构建 URL，那么数据会以键/值对的形式置于 URL 中

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python抓取网页内容401应该用哪个库_python3使用requests模块爬取页面内容入门

python的爬虫相关模块有很多，除了requests模块，再如urllib和pycurl以及tornado等。相比而言，requests模块是相对简单易上手的。通过文本，大家可以迅速学会使用python的requests模块爬取页码内容。1.Requests 唯一的一个非转基因的 Python HTTP 库，人类可以安全享用。官网：http://cn.python-requests.org/zh...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。