python爬虫基础库之urllib

最新推荐文章于 2024-07-20 17:12:48 发布

Mr. Amnesia丶

最新推荐文章于 2024-07-20 17:12:48 发布

阅读量269

点赞数

分类专栏：爬虫学习之旅文章标签： python

本文链接：https://blog.csdn.net/Mr_Amnesia/article/details/109952730

版权

引入

工欲善其事，必先利其器。想要写爬虫去获取数据，前提是先要对写爬虫需要用到的工具有足够的了解，这样才能有最大的可能实现需求。这篇文章的主角就是在做爬虫是处理网络请求时最基本、常用的工具。

这里写目录标题

引入
urllib库

urllib库

urllib官方文档: https://docs.python.org/3/library/urllib.html.

urllib拥有四大战将，他们分别是：

1.urllib.request:专门负责请求，打开、读取URL
2.urllib.error：专门负责处理异常
3.urllib.parse：专门负责解析URL
4.urllib.robotparser：专门负责处理网站的robot.txt文件

1.urllib.request

request模块主要功能是发送request请求，接收服务器返回的response（回复）。其中常用的方法如下：

1.urllib.request.urlopen()
千言万语不如实践，上代码：

import urllib.request

response = urllib.request.urlopen("http://www.baidu.com")
print(response.read().decode("utf-8"))

成功将百度主页源代码抓取下来：
在这里插入图片描述
read()是啥？且耐心往下看。
现在看看response到底是什么，

import urllib.request

response = urllib.request.urlopen("http://www.baidu.com")
print(type(response))

运行一下，可以看到输出结果：
在这里插入图片描述
原来，通过urlopen返回的是一个HTTPResponse对象，这个对象又被赋给response变量。既然是个对象，那就可能会有属于它的方法、属性等。它主要包含的方法有 read()、readinto()、getheader()、getheaders()、fileno() 等方法和 msg、version、status、reason、debuglevel、closed 等属性。如通过read()方法（上面用到的）就可以得到请求目标网页的内容。另外，调用urlopen方法并不是一次性得到所有的内容，只能得到response header，只有调用read()方法时才会去获取网页内容（请求了两次）。
可以试一下其他方法及属性：

import urllib.request

response = urllib.request.urlopen("http://www.baidu.com")
print(type(response))
print(response.getheaders())
print(response.status)
print(response.msg)
print(response.version)

在这里插入图片描述
上面抓取百度主页的小例子用的请求方法时get请求，我们知道，浏览器向服务器发送请求的方式不只是get请求，常用的还有post、put等请求方式。当我们希望向服务器提交数据时，此时get请求不能满足我们的所有需求，那要该怎么实现呢？很简单，我们先看一下urlopen的API：

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

我们只要将要发送给服务器的数据传给data参数就行了。举个栗子：

import urllib.request
import urllib.parse

headers = {
     "user-agent&#

最低0.47元/天解锁文章

Mr. Amnesia丶

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫基础库之urllib

引入   工欲善其事，必先利其器。想要写爬虫去获取数据，前提是先要对写爬虫需要用到的工具有足够的了解，这样才能有最大的可能实现需求。这篇文章的两位主角就是在做爬虫是处理网络请求时最基本、常用的工具（当然python处理网络请求不止这两个库）。...
复制链接

扫一扫