目录
一、基本目标
通过 在线翻译_有道 (youdao.com)来获取翻译结果
效果如下:
二、分析网页结构
如下图:
按F12并且切换到如图
当我们在翻译框中输入内容,便会看到,点进入看一下,可以知道
- 发出请求的URL为:如上图
- 请求方式为POST,那么我们就要弄清楚有哪些需要提交的数据
- 在圈注的“表单数据”可以看到需要提交的数据
- 弄清楚哪些数据是不变的,哪些是变化的(多提交几次作比较即可)
如图:
经过比较:被选中的三个是变化的:salt、sign、lts
那么我们下一步要弄清楚的就是这些数据是怎么变化的
我们按Ctrl+Shift+F:如下输入salt
点进这个js文件 点进去只有一行不好看,带下面的花括号便于查看
我们同样的查找salt,按Ctrl+f
''' var r = function(e) { var t = n.md5(navigator.appVersion) , r = "" + (new Date).getTime() , i = r + parseInt(10 * Math.random(), 10); return { ts: r, bv: t, salt: i, sign: n.md5("fanyideskweb" + e + i + "Ygy_4c=r#e#4EX^NUGUc5") } }; '''
可以知道是如何变化的
我们打个断点再做一次请求
可以知道e是要翻译的东西
lbv和sign是通过md5加密
lts与时间戳有关
salt再lts后面加上随机数
下面就是写代码了
三、代码的编写
首先定义一个md5加密
import hashlib # md5加密
def myMd5(s):
s = s.encode('utf-8') # 确认编码格式
return hashlib.md5(s).hexdigest()
然后就是处理数据的变化
i = input("请输入要翻译的内容")
# lbv = myMd5(
# 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36 Edg/107.0.1418.56')
ts = int(time.time()) * 1000 # r = "" + (new Date).getTime()
salt = str(ts) + str(random.randint(0, 9)) # i = r + parseInt(10 * Math.random(), 10);
sign = myMd5(
"fanyideskweb{}{}Ygy_4c=r#e#4EX^NUGUc5".format(i, salt)) # n.md5("fanyideskweb" + e + i + "Ygy_4c=r#e#4EX^NUGUc5")
lbv是通过md5加密,但是它是不变量,可以处理也可以不处理,直接用查到的值,不同设备值不同,以自己的为准
'lbv': '9397f26bba9ce788f6f7b6587fede389',
提交的数据:
datas = {
'i': i,
'from': 'AUTO',
'to': 'AUTO',
'smartresult': 'dict',
'client': 'fanyideskweb',
'salt': salt,
'sign': sign,
'lts': ts,
'lbv': '9397f26bba9ce788f6f7b6587fede389',
'doctype': 'json',
'version': '2.1',
'keyfrom': 'fanyi.web',
'action': 'FY_BY_REALTlME',
}
头信息伪装
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36 Edg/107.0.1418.56',
# 'Accept': 'application/json, text/javascript, */*; q=0.01',
'Cookie': 'OUTFOX_SEARCH_USER_ID=-2144243208@10.105.137.204; OUTFOX_SEARCH_USER_ID_NCOO=992463711.096388; ___rl__test__cookies=1669529861940',
# 'Accept-Encoding': 'gzip, deflate',
# 'Accept-Language': 'zh-CN,zh;q=0.9',
# 'Connection': 'keep-alive',
# 'Content-Length': '251',
# 'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
'Host': 'fanyi.youdao.com',
'Origin': 'http://fanyi.youdao.com',
'Referer': 'http://fanyi.youdao.com/',
'X-Requested-With': 'XMLHttpRequest',
}
总的代码如下:
# -*- coding: utf-8 -*-
"""
@File : transform.py
@author: FxDr
@Time : 2022/11/27 13:44
"""
import random
import time
import requests
import hashlib # md5加密
def myMd5(s):
s = s.encode('utf-8') # 确认编码格式
return hashlib.md5(s).hexdigest()
'''
var r = function(e) {
var t = n.md5(navigator.appVersion)
, r = "" + (new Date).getTime()
, i = r + parseInt(10 * Math.random(), 10);
return {
ts: r,
bv: t,
salt: i,
sign: n.md5("fanyideskweb" + e + i + "Ygy_4c=r#e#4EX^NUGUc5")
}
};
'''
url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'
i = input("请输入要翻译的内容")
# lbv = myMd5(
# 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36 Edg/107.0.1418.56')
ts = int(time.time()) * 1000 # r = "" + (new Date).getTime()
salt = str(ts) + str(random.randint(0, 9)) # i = r + parseInt(10 * Math.random(), 10);
sign = myMd5(
"fanyideskweb{}{}Ygy_4c=r#e#4EX^NUGUc5".format(i, salt)) # n.md5("fanyideskweb" + e + i + "Ygy_4c=r#e#4EX^NUGUc5")
datas = {
'i': i,
'from': 'AUTO',
'to': 'AUTO',
'smartresult': 'dict',
'client': 'fanyideskweb',
'salt': salt,
'sign': sign,
'lts': ts,
'lbv': '9397f26bba9ce788f6f7b6587fede389',
'doctype': 'json',
'version': '2.1',
'keyfrom': 'fanyi.web',
'action': 'FY_BY_REALTlME',
}
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36 Edg/107.0.1418.56',
# 'Accept': 'application/json, text/javascript, */*; q=0.01',
'Cookie': 'OUTFOX_SEARCH_USER_ID=-2144243208@10.105.137.204; OUTFOX_SEARCH_USER_ID_NCOO=992463711.096388; ___rl__test__cookies=1669529861940',
# 'Accept-Encoding': 'gzip, deflate',
# 'Accept-Language': 'zh-CN,zh;q=0.9',
# 'Connection': 'keep-alive',
# 'Content-Length': '251',
# 'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
'Host': 'fanyi.youdao.com',
'Origin': 'http://fanyi.youdao.com',
'Referer': 'http://fanyi.youdao.com/',
'X-Requested-With': 'XMLHttpRequest',
}
req = requests.post(url, data=datas, headers=headers)
# print(req.text)# {"errorCode":0,"translateResult":[[{"tgt":"Why are you hey hey hey","src":"你干嘛嗳嗳哟"}]],"type":"zh-CHS2en"}
print(req.json()['translateResult'][0][0]['tgt'])
四、一些小问题?
运行图
没问题,但是如下图:
可以看到后面的美丽呢?难道丢了吗
其实是我这么打印,只输出了第一个’tgt'
print(req.json()['translateResult'][0][0]['tgt'])
那么拼接一下就行了:
trans = '{}的翻译如下:\n'.format(i)
# print(len(req.json()['translateResult'][0]))
lens = len(req.json()['translateResult'][0])
for each in req.json()['translateResult'][0]:
trans += str(each['tgt'])
print(trans)
效果图:
可以看到解决了