【Python】使用urllib模块实现网页内容读取,读取指定URL的网页内容

题目👇

使用urllib模块实现网页内容读取,读取指定URL的网页内容

知识补充👇

在Python3版本内置模块中提供了urllib模块,实质上是一个HTTP请求库,可以提供一些爬虫的基础操作,主要包含urllib.request、 urllib.response、urllib.parse三部分。

urllib库子模块
urllib.request请求模块(常用)
urllib.error异常处理模块(常用)
urllib.parseurl解析模块(常用)
urllib.robotparser解析robots.txt协议(每个网页本地都会有robots.txt协议,这里规定了本网页哪些内容可以爬取,哪些内容不可以爬取,是一个纯纯的“君子协定”,不让爬不代表不能爬)

另外,因为操作上比较繁琐,urllib库在实际爬虫应用并不多,相比之下request库的应用更为普遍。

思路分析👇

按照本题的要求,我们只需要爬取网页源码,需要用到urllib库里的requset.urlopen()创建请求对象,成功后就可以用read()方法来读取网页源代码,将其解码并打印出来即可,最后用close()关闭连接,完成操作。

代码示例👇

#coding:utf-8
#author:Mitchell
#task:网页内容读取,读取指定URL的网页内容

#加载urllib的请求库
import urllib.request
#用urlopen()创建urllib连接对象
fp = urllib.request.urlopen(r'http://www.baidu.com')
#read()可以读取网页超文本源代码,也就是HTML代码
#参数为指定读取内容大小,无参数默认全部文本
#需要解码,否则会直接返回十六进制编码字符串
print(fp.read().decode())
#关闭连接对象
fp.close()

  • 6
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Mitch311

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值