python爬虫工程师成长之路三 URLlib库和URLError处理

最新推荐文章于 2023-05-20 21:02:37 发布

Late whale

最新推荐文章于 2023-05-20 21:02:37 发布

阅读量997

点赞数 1

分类专栏： python 爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/Late_whale/article/details/104572562

版权

本文详细介绍了Python的URLlib库在爬虫中的应用，包括如何使用URLlib爬取网页、设置超时、处理HTTP协议请求、使用代理服务器、处理URLError异常。同时，还讲解了浏览器伪装技巧，如获取和设置Headers，以应对网站的反爬虫策略。

摘要由CSDN通过智能技术生成

文章目录

URLlib库概述

URLlib是python提供的一个用于操作URL的模块，常用于爬取网页，python3.x中将python2.x中的URLlib和URLlib2合并成为新的URLlib。

使用URLlib爬取网页

导入URLlib.request
```
import urllib.request
```
使用urllib.request.urlopen打开需要爬取的网站并用web接收一下
```
web=urllib.request.urlopen('http://www.baidu.com')
```

读取网页内容

data=web.read() #读取网页的全部内容
dataline=web.readline() #读取网页的一行内容

查看网页内容

将网页存到本地
urlllib.request.urlretrieve(url，filename)

url：网页的网址
filename：存放文件的地址与名称

urllib.request.urlretrieve('http://www.baidu.com','./baidu.	html')

在这里插入图片描述
打开文件

全过程

import urllib.request
web=urllib.request.urlopen('http://www.baidu.com')
data=web.read() #读取网页的全部内容
dataline=web.readline() #读取网页的一行内容
print(dataline)
print('-------------------')
print(data)
urllib.request.urlretrieve('http://www.baidu.com','./baidu.html')

在这里插入图片描述

urllib常用方法

urllib.request.urlcleanup()
清除urlretrieve()执行时产生的缓存
```
urllib.request.urlcleanup()
```
网页.info()
返回当前环境有关的信息
因为之前将爬取的网页赋值给了web，所以直接使用web.info()即可
网页.getcode()
返回当前爬取网页的状态码，200为正确，其他均为不正确
网页.geturl()
返回当前爬取的URL地址

最低0.47元/天解锁文章

Late whale

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python爬虫工程师成长之路三 URLlib库和URLError处理

文章目录URLlib库概述使用URLlib爬取网页urllib常用方法浏览器伪装获取浏览器Headers属性使用build_opener()修改报头使用add_header()添加报头超时设置http协议请求代理服务器设置DebugLogURLRrrorURLlib库概述URLlib是python提供的一个用于操作URL的模块，常用于爬取网页，python3.x中将python2.x中的URL...
复制链接

扫一扫