Python爬虫使用urllib的post请求百度翻译中的数据

Curz酥

已于 2022-01-22 08:57:01 修改

阅读量635

点赞数 3

分类专栏： Python 文章标签： python 爬虫百度 pycharm

于 2022-01-21 23:19:57 首次发布

本文链接：https://blog.csdn.net/m0_56494923/article/details/122631129

版权

Python 专栏收录该内容

11 篇文章 1 订阅

订阅专栏

本节课通过爬取百度翻译的数据为例对urllib中post进行讲解。

注意，要用英文输入法输入，才能出现sug文件。

以下代码为详细步骤：

# post请求

import urllib.request
import urllib.parse

# post的请求地址
url = 'https://fanyi.baidu.com/sug'   # 上图红线处就是地址

headers = {
    'User-Agent': '你的UA'
}

data = {
    'kw': 'spider'
}

# post请求的参数必须要进行编码
# urlencode(data)就是用来进行编码的方法
# post请求的参数必须是字节型，所以编码完后还要调用encode方法
# encode('utf-8')，使得data从字符串型变成字节型
data = urllib.parse.urlencode(data).encode('utf-8')

# post的请求参数，是不会拼接在url后面的，而是需要放在请求对象的定制中
request = urllib.request.Request(url=url, data=data, headers=headers)

# 模拟浏览器向服务器发送请求
# 如果之前没有进行编码，那么这下面一句代码就会报错
response = urllib.request.urlopen(request)

# 获取响应的数据
content = response.read().decode('utf-8')

# 以下代码打印结果是json的字符串类型
# print(content)

# 将字符串转换成json对象
import json

obj = json.loads(content)
print(obj)  # 将字符串转换成json对象后，就能显示出中文了

运行结果：