python3模拟有道翻译和谷歌翻译对比

最新推荐文章于 2024-08-08 08:10:46 发布

宇宙无敌帅超人

最新推荐文章于 2024-08-08 08:10:46 发布

阅读量3.9k

点赞数

分类专栏： python爬虫文章标签： python爬虫模拟浏览器 python3模拟有道翻译 python3模拟谷歌翻译

本文链接：https://blog.csdn.net/weixin_40896352/article/details/79195979

版权

python爬虫专栏收录该内容

10 篇文章 0 订阅

订阅专栏

模拟有道词典（成功）：

import urllib.request
import urllib.parse
import json
import time

while True:
    content = input("请输入需要翻译的内容(输入'1'退出程序)：")
    if content == '1':
        break
    
    url = 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule'

    #head = {}
    #head['User-Agent'] = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'

    data = {}
    data['i'] = content
    data['to'] = 'AUTO'
    data['smartresult'] = 'dict'
    data['client'] = 'fanyideskweb'
    data['salt'] = '1517200217152'
    data['sign'] = 'fc8a26607798294e102f7b4e60cc2686'
    data['doctype'] = 'json'
    data['version'] = '2.1'
    data['keyfrom'] = 'fanyi.web'
    data['action'] = 'FY_BY_CLICKBUTTION'
    data['typoResult'] = 'true'
    data = urllib.parse.urlencode(data).encode('utf-8')

    #方法一：若要加head参数，则不能直接用urlopen方法，要先用Request方法在用urlopen
    #rep = urllib.request.Request(url,data,head)
    #response = urllib.request.urlopen(rep)

    #方法二：用add_header（）方法添加head参数
    req = urllib.request.Request(url,data)
    req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36')
    response = urllib.request.urlopen(req)
    html = response.read().decode('utf-8')

    target = json.loads(html)
    print("翻译结果：%s" % (target['translateResult'][0][0]['tgt']) )
    time.sleep(5)

模拟谷歌翻译（失败）：

import urllib.request
import urllib.parse
import json

url = 'https://translate.google.cn/translate_a/single?client=t&sl=zh-CN&tl=en&hl=zh-CN&dt=at&dt=bd&dt=ex&dt=ld&dt=md&dt=qca&dt=rw&dt=rm&dt=ss&dt=t&ie=UTF-8&oe=UTF-8&source=btn&ssel=3&tsel=3&kc=0&tk=188306.307668&q=%E7%88%B1%E5%9B%BD'
content = input('请输入需要翻译的内容：')


data = {}
data['client'] = 't'
data['sl'] = 'zh-CN'
data['tl'] = 'en'
data['hl'] = 'zh-CN'
data['dt'] = 'at'
data['dt'] = 'bd'
data['dt'] = 'ex'
data['dt'] = 'ld'
data['dt'] = 'md'
data['dt'] = 'qca'
data['dt'] = 'rw'
data['dt'] = 'rm'
data['dt'] = 'ss'
data['dt'] = 't'
data['ie'] = 'UTF-8'
data['oe'] = 'UTF-8'
data['source'] = 'btn'
data['ssel'] = '3'
data['tsel'] = '3'
data['kc'] = '0'
data['tk'] = '188306.307668'
data['q'] = content
data = urllib.parse.urlencode(data).encode('UTF-8')


headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}

try:
    rep = urllib.request.Request(url,data,headers)
    response = urllib.request.urlopen(rep)
    html = response.read().decode('utf-8')
    target = json.loads(html)

    print(target)
except Exception as reason:
    print(str(reason))

运行错误打印：

============== RESTART: C:\Users\ls153\Desktop\copy_transfer.py ==============
请输入需要翻译的内容：爱国
HTTP Error 403: Forbidden
>>>

总结原因及注意事项：

1.模拟有道翻译时易犯错误：url参数中translate_0要将_0去掉才可以正常访问（由于有道的反爬机制）

2.若要加传User-Agent参数，有两种方法，且不能直接用urlopen()方法打开，要先用urllib.request.Request()方法，再调用urllib.request.urlopen()方法得到response对象

3.在传入data参数和header参数时，需要注意两参数的数据类型均是字典，且对于data进行赋值后需要用urllib.parse.urlencode().encode()方法对其为unicode的编码格式解析成utf-8的编码格式

4.在读取返回对象response时，需要对其进行decode()解码成unicode编码格式再读取

5.对于谷歌翻译可能需要用到代理来爬取，改日再试。。。。。

宇宙无敌帅超人

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录