爬虫基础------urllib基础与超时设置

最新推荐文章于 2021-01-19 00:08:21 发布

M鱼小刀

最新推荐文章于 2021-01-19 00:08:21 发布

阅读量721

点赞数 1

分类专栏： python-基础爬虫

本文链接：https://blog.csdn.net/weixin_42133768/article/details/96739168

版权

python-基础爬虫专栏收录该内容

8 篇文章 3 订阅

订阅专栏

1.urllib的几个相关函数，各个函数的具体功能如案例代码所示：


import urllib.request
# urlretrieve(网址，本地文件的存储地址)直接下载网页到本地
urllib.request.urlretrieve("http://www.baidu.com","E:\\Pythondemo\\Python-test\\PythonLX\\dld.html")

# 清除数据缓冲，减少内存浪费
urllib.request.urlcleanup()
# info-----得到当前爬取相应的情况
file = urllib.request.urlopen("http://read.douban.com/provider/all")
print(file.info())
# getcode----返回网页爬取当期的状态码（200正确状态码 ^200则获取失败）
print("-----------")
print(file.getcode())
# 获取当前访问的网页url,geturl()
print("===========")
print(file.geturl)

案例运行结果：

备注：本博客如有疑问，欢迎大家在评论区留言-------本博客的博主觉得他就是查找爬虫过程中你想获取的有用信息以及查找错误，实际没个啥可标注的！！！

2.超时设置案例代码：

# 超时设置
import urllib.request
for i in range(0,100):
    try:
        file = urllib.request.urlopen("http://yum.iqianyue.com", timeout=0.25)
        #不输出len也行，直接file.read()也是OK的
        print(len(file.read()))
    except Exception as err:
        print("出现异常"+str(err))

超时设置的运行结果：

M鱼小刀

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫基础------urllib基础与超时设置

1.urllib的几个相关函数，各个函数的具体功能如案例代码所示：import urllib.request# urlretrieve(网址，本地文件的存储地址)直接下载网页到本地urllib.request.urlretrieve("http://www.baidu.com","E:\\Pythondemo\\Python-test\\PythonLX\\dld.html")# ...
复制链接

扫一扫