文章目录
URLlib库概述
URLlib是python提供的一个用于操作URL的模块,常用于爬取网页,python3.x中将python2.x中的URLlib和URLlib2合并成为新的URLlib。
使用URLlib爬取网页
-
导入URLlib.request
import urllib.request
-
使用urllib.request.urlopen打开需要爬取的网站并用web接收一下
web=urllib.request.urlopen('http://www.baidu.com')
-
读取网页内容
data=web.read() #读取网页的全部内容 dataline=web.readline() #读取网页的一行内容
-
查看网页内容
-
将网页存到本地
urlllib.request.urlretrieve(url,filename)- url:网页的网址
- filename:存放文件的地址与名称
urllib.request.urlretrieve('http://www.baidu.com','./baidu. html')
打开文件
全过程import urllib.request web=urllib.request.urlopen('http://www.baidu.com') data=web.read() #读取网页的全部内容 dataline=web.readline() #读取网页的一行内容 print(dataline) print('-------------------') print(data) urllib.request.urlretrieve('http://www.baidu.com','./baidu.html')
urllib常用方法
- urllib.request.urlcleanup()
清除urlretrieve()执行时产生的缓存urllib.request.urlcleanup()
- 网页.info()
返回当前环境有关的信息
因为之前将爬取的网页赋值给了web,所以直接使用web.info()即可
- 网页.getcode()
返回当前爬取网页的状态码,200为正确,其他均为不正确
- 网页.geturl()
返回当前爬取的URL地址