python爬虫学习5

亦瑕

已于 2022-03-01 18:08:21 修改

阅读量352

点赞数 2

分类专栏： Python爬虫基础学习笔记文章标签： python 爬虫学习

于 2022-02-28 17:41:30 首次发布

本文链接：https://blog.csdn.net/szshiquan/article/details/123187874

版权

python爬虫学习5

基本库的使用

这里写目录标题

- - python爬虫学习5
  - - urllib的使用

urllib的使用

四个模块
- request：最基本的HTTP请求模块，可以模拟请求的发送。
- error：异常处理模块
- parse：一个工具模块。提供了许多URL处理方法
- robotparser：主要用来识别网站的robot.txt文件，然后判断那些网站可以爬

urllib.parse 中的编码与解码

用于解析url
当我们使用url时，其中不能够出现中文，这时就需要我们使用其中的方法来进行转码
例如我们搜索冰墩墩

# 
在浏览器显示的url为： 
https://www.baidu.com/s?wd=冰墩墩&ie=utf-8&tn=15007414_2_pg
但是我们将它复制下来：
https://www.baidu.com/s?wd=%E5%86%B0%E5%A2%A9%E5%A2%A9&ie=utf-8&tn=15007414_2_pg
所以我们想要使用中文就要进行转码

使用urllib.parse.urlencode方法

import urllib.parse
# 在原链接中 其为 wd = ** 的格式对应python的字典格式
dic_0 = {
       'wd': '冰墩墩'}

result_1 = urllib.parse.urlencode(dic_0)
print(result_1)

# 把编码后的东西给解码
result_2 &

最低0.47元/天解锁文章

亦瑕

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
3
评论
python爬虫学习5

python爬虫学习5基本库的使用这里写目录标题python爬虫学习5urllib的使用四个模块urllib.parse 中的编码与解码发送请求（urllib.request）urllib.request.urlopen参数说明返回值格式发送并获取 get请求发送并获取 post请求urllib的使用四个模块request：最基本的HTTP请求模块，可以模拟请求的发送。error：异常处理模块parse：一个工具模块。提供了许多URL处理方法robotparser：主要用来识别网站
复制链接

扫一扫