Python爬虫 —— 百度翻译

最新推荐文章于 2024-09-05 15:08:22 发布

alun550

最新推荐文章于 2024-09-05 15:08:22 发布

阅读量2k

点赞数 2

分类专栏： python 爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/alun550/article/details/107675320

版权

python 同时被 2 个专栏收录

46 篇文章 0 订阅

订阅专栏

爬虫

2 篇文章 0 订阅

订阅专栏

百度翻译

基本信息
网站基本信息

基本信息

爬虫测试时间：2020年7月29日

爬虫目标网站：百度翻译（https://fanyi.baidu.com/?aldtype=16047#auto/zh）

网站基本信息

在这里插入图片描述

键入要翻译的关键字后，页面局部刷新（依旧使用的是 AJAX）
在这里插入图片描述

1、数据抓包，进入XHR页面获取AJAX实际的请求地址及相关参数

在这里插入图片描述

2、看几个响应，分析请求的规律

在这里插入图片描述

找到k是china的那个请求，可以看到请求url、请求方式和返回的数据类型都有了

继续往下看，post传出的是什么样的数据。最下方可以看到传出数据的形式为 key —> kw， value —> china
在这里插入图片描述

3、编写个代码测试一下（此步可跳过，下面代码为不完全版本，只是为了引导思路）

import requests
from bs4 import BeautifulSoup
import os

baseurl = 'https://fanyi.baidu.com/sug'

ua = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)' \
     ' AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'

para = {
    'query': 'python'
}

data = {
    'kw': 'dog'
}

res = requests.post(baseurl, headers={'User-Agent': ua}, data=data)


saveDir = './爬虫数据存储/百度翻译'
saveData = '百度翻译'
extName = 'json'

if res.status_code == 200:
    print(res.text)
    if not os.path.exists(saveDir):
        os.mkdir(saveDir)
    with open(os.path.join(saveDir, saveData + '.' + extName), 'w', encoding='utf-8') as f:
        f.write(res.text)

可以看到返回的数据如下：
在这里插入图片描述
上图中的 v 都是 \uxxx的形式，使用urllib解析字符，可以看到返回的结果就是翻译的结果

在这里插入图片描述

4、一个一个的解析这些字符也很麻烦，此处既然返回的直接试json数据，则调用 requests.json() 直接将响应的json字符串读入为 python 字典，可以看到结果数据已经成功被解析了
在这里插入图片描述

5、整体代码如下：

import requests
from bs4 import BeautifulSoup
import os
import json

baseurl = 'https://fanyi.baidu.com/sug'

ua = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)' \
     ' AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'

para = {
    'query': 'python'
}

data = {
    'kw': 'dog'
}

res = requests.post(baseurl, headers={'User-Agent': ua}, data=data)


saveDir = './爬虫数据存储/百度翻译'
saveData = '百度翻译'
extName = 'json'

if res.status_code == 200:
    print(res.text)
    if not os.path.exists(saveDir):
        os.mkdir(saveDir)
    with open(os.path.join(saveDir, saveData + '.' + extName), 'w', encoding='utf-8') as f:
        # 注意此处使用json.dumps() 一定要把属性 ensure_ascii 设置为 False，否则中文无法正常解码
        f.write(json.dumps(res.json(), ensure_ascii=False))