Python爬虫教程-05-python爬虫实现百度翻译_python爬虫百度翻译-CSDN博客

本文介绍如何使用Python爬虫模拟浏览器发送POST请求来实现百度翻译的功能。通过抓取百度翻译网页的数据，解析并获取翻译结果。文章还提供了详细的步骤和代码示例。

使用python爬虫实现百度翻译功能

python爬虫实现百度翻译： python解释器【模拟浏览器】，发送【post请求】，传入待【翻译的内容】作为参数，获取【百度翻译的结果】

通过开发者工具，获取发送请求的地址

提示： 翻译内容发送的请求地址，绝对不是打开百度翻译的那个地址，想要抓取地址，就要借助【浏览器的开发者工具】，或者其他抓包工具

下面介绍获取请求地址的具体方法

以Chrome为例

打开百度翻译：http://fanyi.baidu.com/
【点击右键】>【检查】>【network】（如果是火狐浏览器，点击【网络】）
点击【XHR】项，（有些需要刷新，有些异步的请求不需要刷新）
在页面【输入翻译的词汇】
在XHR项下，查找包含【输入需要翻译的词汇】的请求
查看请求的参数，需要【点击请求】>【Headers】>最下面的【Form Data】
（这里有一个坑：我们会发现有多个sug项，其实是因为百度翻译只要每输入一个字母就会发送一次请求，所以虽然多个请求的地址都是一样的，但是只有最后一个sug项的参数才是最后的词汇）

操作截图 :

这里写图片描述

请求地址在这里

献上实现的代码

直接上代码，具体步骤下载注释上了

不会配置环境，安装python的包，请参考上一篇：
https://blog.csdn.net/qq_40147863/article/details/81451202
py05bdfanyi.py文件：https://xpwi.github.io/py/py%E7%88%AC%E8%99%AB/py05bdfanyi.py

# python爬虫实现百度翻译
# urllib和request POST参数提交
# 缺少包请自行查看之前的笔记

from urllib import request,parse
import json

def fanyi(keyword):
    base_url = 'http://fanyi.baidu.com/sug'

    # 构建请求对象
    data = {
        'kw': keyword
    }
    data = parse.urlencode(data)

    # 模拟浏览器
    header = {"User-Agent": "mozilla/4.0 (compatible; MSIE 5.5; Windows NT)"}

    req = request.Request(url=base_url,data=bytes(data,encoding='utf-8'),headers=header)
    res = request.urlopen(req)

    # 获取响应的json字符串
    str_json = res.read().decode('utf-8')
    # 把json转换成字典
    myjson = json.loads(str_json)
    info = myjson['data'][0]['v']
    print(info)

if __name__=='__main__':
    while True:
        keyword = input('请输入翻译的单词：')
        if keyword == 'q':
            break
        fanyi(keyword)

代码运行

这里写图片描述

后续还会更精彩

python爬虫实现百度翻译： python解释器【模拟浏览器】，发送【post请求】，传入待【翻译的内容】作为参数，获取【百度翻译的结果】

更多文章链接：Python 爬虫随笔

- 本笔记不允许任何个人和组织转载

13 条评论

荼靡~ 2021.04.16

找不到sug怎么回事

小黄正在努力回复stripe-python 2023.05.20
那你知道怎么办嘛？
stripe-python回复荼靡~ 2022.01.13
百度翻译改版了

qq_43315894 2019.11.21

我按照您的代码敲的出现报错是 KeyError: 'data'怎么回事？

qq_40966836回复qq_43315894 2020.03.21
[reply]qq_43315894[/reply]在url，http后改称https

「已注销」 2019.11.08

前排感谢大佬，另外百度好像改规则了，myjson现在接受的是：{'errno': 1001, 'errmsg': '参数错误'}，应该是少参数吧。。。。。

BOhandsome7回复S.upine 2020.01.06
[reply]qq_40693617[/reply]棒
wlf~回复S.upine 2019.11.22
[reply]qq_40693617[/reply] 棒
S.upine回复「已注销」 2019.11.20
[reply]recluse_e[/reply] 在代码url网址的http后面加一个s就可以了哦

奈落之魂 2018.12.31

想问下请求头一般要带什么东西过去？

奈落之魂回复肖朋伟 2018.12.31
[reply]qq_40147863[/reply] 好的，谢谢了，感觉写的很适合新手
肖朋伟回复奈落之魂 2018.12.31
[reply]qq_37102165[/reply] 请求头中带一个 User-Agent 模拟成浏览器在请求就可以。然后在 data 中存需要翻译的词汇