pyhton爬虫基础(六)urllib中的urlopen

本文介绍了Python内置的HTTP请求库urllib,重点讲解了request模块中的urlopen方法,包括如何发送请求、响应类型以及常用参数如data、timeout的使用。通过示例展示了如何设置超时时间、POST请求以及处理HTTPS连接。
摘要由CSDN通过智能技术生成

学习爬虫,最初的操作便是模拟浏览器向服务器发出请求。

我们只需要关心请求的链接是什么,需要的参数是什么,以及如何设置可选的请求头就行了,不需要深入了解它是怎样传输和通信的。

一、使用urllib

它是Pyhton内置的HTTP请求库,包含四个模块。

request:它是最基本的HTTP请求模块,可以用来模拟发送请求。就像在浏览器里输入网址然后回车一样,只用给库方法传入URL以及额外的参数,就可以模拟实现这个过程。

error:异常处理模块。

parse:一个工具模块,提供了许多处理URL方法。如拆分、解析、合并等。

robotparser:主要用识别网站的robots.txt文件,判断网站是否能爬取,一般不用。

1.发送请求

使用urllib的request模块,我们可以方便地实现请求的发送并得到响应。下面是具体用法。

(1)urlopen()

urllib.request模块提供了最基本的构造HTTP请求的方法,它还带有处理授权验证、重定向、浏览器Cookies以及其他内容。

import urllib.request
resonse=urllib.request.urlopen('https://www.python.org')
print(resonse.read().decode('utf-8'))

只需两行代码就实现Python官网的抓取,输出了网页的源代码。得到源代码后,我们就可以从中提取链接、网图地址、文本信息。

接下来看看它返回的是啥,用type()方法输出响应类

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值