python爬虫学习5
基本库的使用
这里写目录标题
-
urllib的使用
-
四个模块
- request:最基本的HTTP请求模块,可以模拟请求的发送。
- error:异常处理模块
- parse:一个工具模块。提供了许多URL处理方法
- robotparser:主要用来识别网站的robot.txt文件,然后判断那些网站可以爬
-
urllib.parse 中的编码与解码
- 用于解析url
- 当我们使用url时,其中不能够出现中文,这时就需要我们使用其中的方法来进行转码
- 例如我们搜索冰墩墩
# 在浏览器显示的url为: https://www.baidu.com/s?wd=冰墩墩&ie=utf-8&tn=15007414_2_pg 但是我们将它复制下来: https://www.baidu.com/s?wd=%E5%86%B0%E5%A2%A9%E5%A2%A9&ie=utf-8&tn=15007414_2_pg 所以我们想要使用中文就要进行转码
使用urllib.parse.urlencode方法
import urllib.parse # 在原链接中 其为 wd = ** 的格式对应python的字典格式 dic_0 = { 'wd': '冰墩墩'} result_1 = urllib.parse.urlencode(dic_0) print(result_1) # 把编码后的东西给解码 result_2 &
-