爬虫学习（2）破解百度翻译

最新推荐文章于 2024-07-22 16:19:52 发布

无妄无望

最新推荐文章于 2024-07-22 16:19:52 发布

阅读量692

点赞数 3

文章标签：学习

本文链接：https://blog.csdn.net/PLANTTHESON/article/details/138510736

版权

代码

import requests
import json

if __name__ == "__main__":
    url = 'https://fanyi.baidu.com/sug'
    #post请求参数处理（同get请求一致）
    headers = {
        "User-Agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36'
    }
    word = input('enter a word:')
    data = {
        'kw': word
    }
    response = requests.post(url=url,data=data,headers=headers)
    #获取响应数据：json（）方法返回的是obj
    dic_obj = response.json()
    fileNmae = word + '.json'
    fp = open(fileNmae,'w',encoding='utf-8')
    json.dump(dic_obj,fp=fp,ensure_ascii=False)
    print('over!')

1.找到要爬取的数据类型

在百度翻译页面，右键选择“检查“，然后是Network，Fetch,如下图所示。可以看到网站地址是

https://fanyi.baidu.com/sug

且返回的数据类型是json

2.response.json()

response.json() 是用于将HTTP响应体解析为JSON格式的方法。通常情况下，当你使用 requests 库发送HTTP请求并得到响应后，可以使用 response.json() 方法来提取JSON格式的数据。这个方法会自动将JSON格式的响应内容转换为Python字典或列表，以便于在代码中进行处理。