python爬虫urllib库详解

最新推荐文章于 2023-03-23 15:40:01 发布

_风雨烟花

最新推荐文章于 2023-03-23 15:40:01 发布

阅读量695

点赞数 1

分类专栏： python 爬虫文章标签： python url 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45101279/article/details/113195037

版权

python 同时被 2 个专栏收录

28 篇文章 0 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

urllib库

模拟浏览器的行为向指定服务器发送请求保存返回的数据

urlopen

参数1 url请求的服务器地址

data 默认是None 如果设置了的值那么请求就变成了post请求

返回值 <http.client.HTTPResponse object at 0x000001DDABEA5CC8>

read 方法
readline 读取一行
readlines 读取多行（用循环进行遍历）

网站识别出爬虫需要解决反爬

返回bytes类型数据

res.read().decode(‘解码格式’)

parse.urlsplit(),parse.urlparse()

对url进行切片

parse.urlsplit(url)
parse.urlparse(url)
#urlparse比 split 多了 params属性

print(‘scheme:’,res.scheme)

print(‘query:’,res.query)

print(‘pach:’,res.path)

print(‘netloc:’,res.netloc)

反反爬

构建请求对象

携带请求头 user-agent：浏览器的名称

urlretrieve

下载方法

urlretrieve(链接，保存地址)

可爬取图片和简单网页代码

request.urlcleanup()清除缓存

urlencode

parse_qs函数对url解码

parse.parse_qs(url)

浏览器发送请求的时候自动对中文以及特殊字符进行ASCII编码我们爬虫在发送请求时直接发送中文服务器不识别需要手动编码

可以把字典变成url编码

from urllib import paese

爬取网页简单流程

1.构建头

header = {
“User-Agent”: “Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36”
}

2.构建请求对象

构建请求对象
request.Request(‘url’,‘header’)

3.发送服务器请求

request.urlopen(请求对象)

4.获取源代码进行解码

res.read().decode(‘解码格式’)

其他使用

代码.readline() 读取单行
代码.readlines() 读取多行返回列表
.getcode(）
获取状态码

取消证书验证

ssl._create_default_https_context = ssl._create_unverified_context

XMind - Trial Version

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。