学习爬虫,最初的操作便是模拟浏览器向服务器发出请求。
我们只需要关心请求的链接是什么,需要的参数是什么,以及如何设置可选的请求头就行了,不需要深入了解它是怎样传输和通信的。
一、使用urllib
它是Pyhton内置的HTTP请求库,包含四个模块。
request:它是最基本的HTTP请求模块,可以用来模拟发送请求。就像在浏览器里输入网址然后回车一样,只用给库方法传入URL以及额外的参数,就可以模拟实现这个过程。
error:异常处理模块。
parse:一个工具模块,提供了许多处理URL方法。如拆分、解析、合并等。
robotparser:主要用识别网站的robots.txt文件,判断网站是否能爬取,一般不用。
1.发送请求
使用urllib的request模块,我们可以方便地实现请求的发送并得到响应。下面是具体用法。
(1)urlopen()
urllib.request模块提供了最基本的构造HTTP请求的方法,它还带有处理授权验证、重定向、浏览器Cookies以及其他内容。
import urllib.request
resonse=urllib.request.urlopen('https://www.python.org')
print(resonse.read().decode('utf-8'))
只需两行代码就实现Python官网的抓取,输出了网页的源代码。得到源代码后,我们就可以从中提取链接、网图地址、文本信息。
接下来看看它返回的是啥,用type()方法输出响应类

本文介绍了Python内置的HTTP请求库urllib,重点讲解了request模块中的urlopen方法,包括如何发送请求、响应类型以及常用参数如data、timeout的使用。通过示例展示了如何设置超时时间、POST请求以及处理HTTPS连接。
最低0.47元/天 解锁文章
192

被折叠的 条评论
为什么被折叠?



