python爬虫——使用urllib爬取网页

最新推荐文章于 2024-04-30 11:11:45 发布

VIP文章 w_sunset

最新推荐文章于 2024-04-30 11:11:45 发布

阅读量6.1k

点赞数 2

分类专栏： python爬虫 python 文章标签： python 编程语言爬虫

本文链接：https://blog.csdn.net/w_sunset/article/details/121567399

版权

1.urlib库是python内置的http请求库，它可以看作处理url的组件集合。urllib库包含4大模块：

（1）urllib.request:请求模块

（2）urllib.error: 异常处理模块

（3）urllib.parse:URL解析模块

（4）urllib.robotparser:robots.txt解析模块

下面是用urllib库爬取百度首页

import urllib.request  # 导入urllib的请求模块request

url = "http://www.baidu.com"
response = urllib.request.urlopen(url)  # 调用urllib.request库的urlopen()方法打开网址
html = response.read().decode("utf-8")  # 使用read()方法读取爬到的内容，并以utf-8方式编码
print(response.status)  # 打印响应的状态码
print(html)

以上代码打印出来就可以看到我们把百度首页的网页源码全部爬下来了

2.分析urlopen()方法

urlopen()可以接受多个参数，该方法的定义如下：

urllib.request.urlopen(url,data=None,[timeout,]*,cafile=None,capath=None,cadefault=False,context=None)

上述方法的定义中的详细参数介绍如下：

（1）url：url地址的字符串，也可

最低0.47元/天解锁文章

w_sunset

关注

2
点赞
踩
23

收藏

觉得还不错? 一键收藏
1
评论
python爬虫——使用urllib爬取网页

1.urlib库是python内置的http请求库，它可以看作处理url的组件集合。urllib库包含4大模块：（1）urllib.request:请求模块（2）urllib.error: 异常处理模块（3）urllib.parse:URL解析模块（4）urllib.robotparser:robots.txt解析模块下面是用urllib库爬取百度首页import urllib.request # 导入urllib的请求模块requesturl = "http://www
复制链接

扫一扫