Python爬虫--Urllib基础

最新推荐文章于 2024-08-15 01:55:01 发布

余十步

最新推荐文章于 2024-08-15 01:55:01 发布

阅读量597

点赞数 18

文章标签： python 爬虫 java

本文链接：https://blog.csdn.net/2301_80488214/article/details/138536711

版权

1. urlretrieve

Urllib 库也是类似 request 库，用来解析html的

首先讲 urlretrieve 子模块

这个模块的作用是将网页下载到本地

语法： urlretrieve(网址,本地地址)

例如：

这样就可以了，他会将百度网页下载到本地D盘下，

不过图片那些可能下载不到，因为他做了防盗取


import urllib.request

url = 'https://www.baidu.com/'

urllib.request.urlretrieve(url,'D:/')

2. urlcleanup

urlcleanup 用来清除爬虫产生的一些缓存及其他一些杂七杂八的东西

他通常在请求网页的时候使用，

运行时不会有任何提示

例：


import urllib.request

url = 'https://www.baidu.com/'

urllib.request.urlretrieve(url,'D:/')

urllib.request.urlcleanup()

3. info()

info() 用来获取网页的简介信息

例：


import urllib.request

url = 'https://www.baidu.com/'

data = urllib.request.urlopen(url)

urllib.request.urlcleanup()

print(data.info())

效果图：

images

4. getcode()

getcode() 获取状态码


import urllib.request

url = 'https://www.baidu.com/'

data = urllib.request.urlopen(url)

urllib.request.urlcleanup()

print(data.getcode())

>>> 输出 200

5. geturl()

geturl() 获取当前访问网页的url地址

例：


import urllib.request

url = 'https://www.baidu.com/'

data = urllib.request.urlopen(url)

urllib.request.urlcleanup()

print(data.geturl())

>>> 输出 https://www.baidu.com/

6. 超时设置

在我们访问网页的时候，可能会因为各种原因导致访问不成功，

这个原因可能是对方服务器反应慢，或者网速慢之类的问题，

那么我们就需要给代码更多的判断时间，

如果超过这个时间，那么我们就可以认为网页无法访问。

这里我们使用到 timeout() 函数来设置请求时间

它通常会配合 try except 函数一起使用

例：

设置超时时间为 5秒，

len() 函数为获取返回长度，

decode() 是解码的意思，有些时候因为编码不同，不解码的话会出错，

第二个参数 ignore ，表示解码失败也强行解码


import urllib.request

try:

	url = 'https://www.baidu.com/'

	data = urllib.request.urlopen(url,timeout=5)

	urllib.request.urlcleanup() # 清除缓存

	print(len(data.read().decode("utf-8","ignore")))

except Exception as error:
	print("无法访问 " + str(error))

>>> 输出 227

Urllib基础，有些时候没有 request模块方便

余十步

关注

18
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
Python爬虫--Urllib基础

urlcleanup 用来清除爬虫产生的一些缓存及其他一些杂七杂八的东西。在我们访问网页的时候，可能会因为各种原因导致访问不成功，是解码的意思，有些时候因为编码不同，不解码的话会出错，这个原因可能是对方服务器反应慢，或者网速慢之类的问题，如果超过这个时间，那么我们就可以认为网页无法访问。这样就可以了，他会将百度网页下载到本地D盘下，那么我们就需要给代码更多的判断时间，这个模块的作用是将网页下载到本地。获取当前访问网页的url地址。他通常在请求网页的时候使用，库，用来解析html的。运行时不会有任何提示。
复制链接

扫一扫