用Python写爬虫（2）——Urllib库

最新推荐文章于 2024-05-24 16:07:35 发布

HuaiGe0123

最新推荐文章于 2024-05-24 16:07:35 发布

阅读量148

点赞数

分类专栏： Python探险

本文链接：https://blog.csdn.net/wangtianhuai/article/details/79172284

版权

Python探险专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本节我们练习使用Urllib库抓取网页

Urllib库是Python中用来操作URL的模块，在Python2和Python3中有一定的差异。我们使用的是Python3，具体两者之间的差异我们就不多说了。

导入模块urllib.request，这个模块用来打开和获取URL的。

import urllib.request

使用urllib.request.urlopen打开并爬取一个网页。

file=urllib.request.urlopen("http://www.baidu.com")

使用file.read()读取网页内容，也可以使用file.readline()读取一行内容

data=file.read()
dataline=file.readline()

输出爬取的内容

print(dataline)
print(data)

file.read()读取文件全部内容，把内容赋给一个字符串变量；file.readlines()读取文件全部内容，但是它把内容赋给一个列表变量。file.readline()读取一行内容。

将爬取的网页以网页格式保存在本地：

爬取一个网页并赋给一个变量；
以写入的方式打开一个本地文件，命名为*.html等格式。
将变量写入该文件。
关闭该文件。

import urllib.request
file=urllib.request.urlopen("http://www.baidu.com")
data=file.read()
print(data)

fhandle=open("D:/Pythonlearning/1.html","wb")
fhandle.write(data)
fhandle.close()

也可以使用urllib.request中的urlretrieve()函数：

filename=urllib.request.urlretrieve("http://edu.51cto.com",filename="D:/Pythonlearning/2.html")
urllib.request.urlcleanup()  #清除缓存

urllib的其他常见用法：

返回与当前环境有关的信息：

file.info()  #爬取的网页.info

file为爬取到的网页赋值的变量，“爬取的网页.info”.

返回网页的状态码：

file.getcode()  #爬取的网页.info

获取爬取的URL地址：

file.geturl()

返回：‘http://www.baidu.com’

HuaiGe0123

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
用Python写爬虫（2）——Urllib库

本节我们练习使用Urllib库抓取网页Urllib库是Python中用来操作URL的模块，在Python2和Python3中有一定的差异。我们使用的是Python3，具体两者之间的差异我们就不多说了。导入模块urllib.request，这个模块用来打开和获取URL的。import urllib.request使用urllib.request.urlopen打开并爬取一个网页。
复制链接

扫一扫