Python网络爬虫——使用Urllib爬取网页

最新推荐文章于 2024-05-02 21:47:38 发布

General_单刀

最新推荐文章于 2024-05-02 21:47:38 发布

阅读量1.5k

点赞数 1

分类专栏： Python Python网络爬虫

本文链接：https://blog.csdn.net/qq_28284093/article/details/81452995

版权

Python 同时被 2 个专栏收录

22 篇文章 5 订阅

订阅专栏

Python网络爬虫

10 篇文章 1 订阅

订阅专栏

1、简介

urllib模块是python提供提供的一个用于操作URL的模块

2、使用

第一步：用urllib快速爬去一个网页

在此以百度为例，如下，答应出爬取到的网页的全部内容和一行内容。

# *-*coding:utf-8*-*
from urllib import request
file = request.urlopen("http://www.baidu.com")
data  = file.read()  # 读取全部内容
dataline = file.readline()  # 读取一行内容
print(data)
print(dataline)

运行结果如下：

第二步：将爬取到的网页以网页的形式保存到本地

# *-*coding:utf-8*-*
from urllib import request
file = request.urlopen("http://www.baidu.com")
data  = file.read()  # 读取全部内容
doc = open("E:/test/1.html","wb")
doc.write(data)
doc.close()

浏览器打开：

3、其它

除了上述方法，还可以用其它方式去保存网页：

file = request.urlopen("http://www.baidu.com",filename="E:/test/2.html")

在urlretrieve执行的过程中，会产生一些缓存，可以使用如下代码清除缓存：

request.urlcleanup()

如果要获取当前爬取网页的状态码：

file.getcode()

如果要获取当前爬取网页的URL：

file.geturl()

如果要对URL进行编码：

urllib.request.quote("url")

如果对URL进行解码：

urllib.request.unquote("url")

大概完结

General_单刀

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录