python3urllib库爬虫_Python3 爬虫学习（一）:urllib库的使用及简单的爬取

Zhuangxiaohai

于 2021-02-03 06:42:31 发布

阅读量156

点赞数

文章标签： python3urllib库爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42361026/article/details/113646269

版权

Python版本：3.X

IDE：jupyter

urllib介绍

官方说明

urllib is a package that collects several modules for working with URLs:

urllib.request for opening and reading URLs

urllib.error containing the exceptions raised by urllib.request

urllib.parse for parsing URLs

urllib.robotparser for parsing robots.txt files

翻译：

urllib是一个包含了多个模块用于收集url信息的一个包：

1.urllib.request模块是用来打开和读取URLs的；

2.urllib.error模块包含一些有urllib.request产生的错误，可以使用try进行捕捉处理；

3.urllib.parse模块包含了一些解析URLs的方法；

4.urllib.robotparser模块用来解析robots.txt文本文件。

补充说明

在python2.x的版本中,有urllib和urllib2两个包，分别起到不同的功能作用(不是版本进化的关系)

python 3.x中urllib库和urilib2库合并成了urllib库

其中

urllib2.urlopen()变成了urllib.request.urlopen()

urllib2.Request()变成了urllib.request.Request()

爬取百度首页

# -*- coding: UTF-8 -*-

from urllib import request

if __name__ == "__main__":

result= request.urlopen("http://www.baidu.com")

html = result.read()

print(html)

urllib使用使用request.urlopen()打开和读取url的信息，返回的对象result为一个对象，可以使用read()将内容读取，再通过print()，将读到的信息打印出来。如下图所示

可以看到上面打印出来的爬取到的存在编码与我们所需不符的情况

这个时候可以使用decode()进行解码

# -*- coding: UTF-8 -*-

from urllib import request

if __name__ == "__main__":

result= request.urlopen("http://www.baidu.com")

html = result.read().decode()

print(html)

效果如下图所示，表示已经成功爬取到了百度首页的内容。

我们也可以用正则表达式去精确获取我们所得到结果中的某一部分的内容，比如title等

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python3urllib库爬虫_Python3 爬虫学习（一）:urllib库的使用及简单的爬取

Python版本：3.XIDE：jupyterurllib介绍官方说明urllib is a package that collects several modules for working with URLs:urllib.request for opening and reading URLsurllib.error containing the exceptions raised by u...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。