Python网络爬虫——使用Urllib爬取网页

1、简介

urllib模块是python提供提供的一个用于操作URL的模块

2、使用

第一步:用urllib快速爬去一个网页

在此以百度为例,如下,答应出爬取到的网页的全部内容和一行内容。

# *-*coding:utf-8*-*
from urllib import request
file = request.urlopen("http://www.baidu.com")
data  = file.read()  # 读取全部内容
dataline = file.readline()  # 读取一行内容
print(data)
print(dataline)

运行结果如下:

 第二步:将爬取到的网页以网页的形式保存到本地

# *-*coding:utf-8*-*
from urllib import request
file = request.urlopen("http://www.baidu.com")
data  = file.read()  # 读取全部内容
doc = open("E:/test/1.html","wb")
doc.write(data)
doc.close()

浏览器打开:

 3、其它

除了上述方法,还可以用其它方式去保存网页:

file = request.urlopen("http://www.baidu.com",filename="E:/test/2.html")

在urlretrieve执行的过程中,会产生一些缓存,可以使用如下代码清除缓存:

request.urlcleanup()

如果要获取当前爬取网页的状态码:

file.getcode()

如果要获取当前爬取网页的URL:

file.geturl()

如果要对URL进行编码:

urllib.request.quote("url")

如果对URL进行解码:

urllib.request.unquote("url")

 

 

大概完结

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

General_单刀

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值