python爬虫

最新推荐文章于 2024-08-23 16:53:34 发布

w_sunset

最新推荐文章于 2024-08-23 16:53:34 发布

阅读量132

点赞数

分类专栏： python 文章标签： python 爬虫

本文链接：https://blog.csdn.net/w_sunset/article/details/120805466

版权

python 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

python爬虫基本库——从urllib库开始

urllib是python内置的HTTP请求库，它可以看作处理url组件的集合。urllin库包含四大模块分别是：

(1)urllib.request:请求模块

(1)urllib.error:异常处理模块

(3)urllib.parse:url解析模块

下面我们利用urllib模块快速爬取百度首页的内容：

import urllib.request  # 导入urlli.request请求模块

# 导入urllib.request库中的urlopen()方法，并传入百度的url
response = urllib.request.urlopen("http://www.baidu.com")
# 使用read()读取爬到的网页内容，并采用utf-8的编码方式
html = response.read().decode("utf-8")
print(html)

上述代码就是一个简单爬取网页的案例，爬取到的是整个百度页面的HTML内容。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

w_sunset

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫

python爬虫基本库——从urllib库开始urllib是python内置的HTTP请求库，它可以看作处理url组件的集合。urllin库包含四大模块分别是：(1)urllib.request:请求模块(1)urllib.error:异常处理模块(3)urllib.parse:url解析模块下面我们利用urllib模块快速爬取百度首页的内容：import urllib.request # 导入urlli.request请求模块# 导入urllib.request库中的u
复制链接

扫一扫