【爬虫】翻译功能实现思路

目录

一、基本目标

二、分析网页结构

三、代码的编写

四、一些小问题?


一、基本目标

通过 在线翻译_有道 (youdao.com)来获取翻译结果

效果如下:

 二、分析网页结构

如下图:

按F12并且切换到如图 

当我们在翻译框中输入内容,便会看到,点进入看一下,可以知道

  1. 发出请求的URL为:如上图
  2. 请求方式为POST,那么我们就要弄清楚有哪些需要提交的数据
  3. 在圈注的“表单数据”可以看到需要提交的数据
  4. 弄清楚哪些数据是不变的,哪些是变化的(多提交几次作比较即可)

如图:

 经过比较:被选中的三个是变化的:salt、sign、lts

那么我们下一步要弄清楚的就是这些数据是怎么变化的

我们按Ctrl+Shift+F:如下输入salt

 点进这个js文件 点进去只有一行不好看,带下面的花括号便于查看

我们同样的查找salt,按Ctrl+f

'''
var r = function(e) {
        var t = n.md5(navigator.appVersion)
          , r = "" + (new Date).getTime()
          , i = r + parseInt(10 * Math.random(), 10);
        return {
            ts: r,
            bv: t,
            salt: i,
            sign: n.md5("fanyideskweb" + e + i + "Ygy_4c=r#e#4EX^NUGUc5")
        }
    };
'''

可以知道是如何变化的

我们打个断点再做一次请求

可以知道e是要翻译的东西

lbv和sign是通过md5加密

lts与时间戳有关

salt再lts后面加上随机数

下面就是写代码了

三、代码的编写

首先定义一个md5加密

import hashlib  # md5加密


def myMd5(s):
    s = s.encode('utf-8')  # 确认编码格式
    return hashlib.md5(s).hexdigest()

然后就是处理数据的变化

i = input("请输入要翻译的内容")
# lbv = myMd5(
#     'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36 Edg/107.0.1418.56')
ts = int(time.time()) * 1000  # r = "" + (new Date).getTime()
salt = str(ts) + str(random.randint(0, 9))  # i = r + parseInt(10 * Math.random(), 10);
sign = myMd5(
    "fanyideskweb{}{}Ygy_4c=r#e#4EX^NUGUc5".format(i, salt))  # n.md5("fanyideskweb" + e + i + "Ygy_4c=r#e#4EX^NUGUc5")

lbv是通过md5加密,但是它是不变量,可以处理也可以不处理,直接用查到的值,不同设备值不同,以自己的为准

'lbv': '9397f26bba9ce788f6f7b6587fede389',

 提交的数据:

datas = {
    'i': i,
    'from': 'AUTO',
    'to': 'AUTO',
    'smartresult': 'dict',
    'client': 'fanyideskweb',
    'salt': salt,
    'sign': sign,
    'lts': ts,
    'lbv': '9397f26bba9ce788f6f7b6587fede389',
    'doctype': 'json',
    'version': '2.1',
    'keyfrom': 'fanyi.web',
    'action': 'FY_BY_REALTlME',
}

头信息伪装

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36 Edg/107.0.1418.56',
    # 'Accept': 'application/json, text/javascript, */*; q=0.01',
    'Cookie': 'OUTFOX_SEARCH_USER_ID=-2144243208@10.105.137.204; OUTFOX_SEARCH_USER_ID_NCOO=992463711.096388; ___rl__test__cookies=1669529861940',
    # 'Accept-Encoding': 'gzip, deflate',
    # 'Accept-Language': 'zh-CN,zh;q=0.9',
    # 'Connection': 'keep-alive',
    # 'Content-Length': '251',
    # 'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
    'Host': 'fanyi.youdao.com',
    'Origin': 'http://fanyi.youdao.com',
    'Referer': 'http://fanyi.youdao.com/',
    'X-Requested-With': 'XMLHttpRequest',

}

总的代码如下:

# -*- coding: utf-8 -*-
"""
@File  : transform.py
@author: FxDr
@Time  : 2022/11/27 13:44
"""
import random
import time

import requests
import hashlib  # md5加密


def myMd5(s):
    s = s.encode('utf-8')  # 确认编码格式
    return hashlib.md5(s).hexdigest()


'''
var r = function(e) {
        var t = n.md5(navigator.appVersion)
          , r = "" + (new Date).getTime()
          , i = r + parseInt(10 * Math.random(), 10);
        return {
            ts: r,
            bv: t,
            salt: i,
            sign: n.md5("fanyideskweb" + e + i + "Ygy_4c=r#e#4EX^NUGUc5")
        }
    };
'''

url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'
i = input("请输入要翻译的内容")
# lbv = myMd5(
#     'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36 Edg/107.0.1418.56')
ts = int(time.time()) * 1000  # r = "" + (new Date).getTime()
salt = str(ts) + str(random.randint(0, 9))  # i = r + parseInt(10 * Math.random(), 10);
sign = myMd5(
    "fanyideskweb{}{}Ygy_4c=r#e#4EX^NUGUc5".format(i, salt))  # n.md5("fanyideskweb" + e + i + "Ygy_4c=r#e#4EX^NUGUc5")
datas = {
    'i': i,
    'from': 'AUTO',
    'to': 'AUTO',
    'smartresult': 'dict',
    'client': 'fanyideskweb',
    'salt': salt,
    'sign': sign,
    'lts': ts,
    'lbv': '9397f26bba9ce788f6f7b6587fede389',
    'doctype': 'json',
    'version': '2.1',
    'keyfrom': 'fanyi.web',
    'action': 'FY_BY_REALTlME',
}
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36 Edg/107.0.1418.56',
    # 'Accept': 'application/json, text/javascript, */*; q=0.01',
    'Cookie': 'OUTFOX_SEARCH_USER_ID=-2144243208@10.105.137.204; OUTFOX_SEARCH_USER_ID_NCOO=992463711.096388; ___rl__test__cookies=1669529861940',
    # 'Accept-Encoding': 'gzip, deflate',
    # 'Accept-Language': 'zh-CN,zh;q=0.9',
    # 'Connection': 'keep-alive',
    # 'Content-Length': '251',
    # 'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
    'Host': 'fanyi.youdao.com',
    'Origin': 'http://fanyi.youdao.com',
    'Referer': 'http://fanyi.youdao.com/',
    'X-Requested-With': 'XMLHttpRequest',

}
req = requests.post(url, data=datas, headers=headers)
# print(req.text)# {"errorCode":0,"translateResult":[[{"tgt":"Why are you hey hey hey","src":"你干嘛嗳嗳哟"}]],"type":"zh-CHS2en"}
print(req.json()['translateResult'][0][0]['tgt'])

四、一些小问题?

运行图

 没问题,但是如下图:

可以看到后面的美丽呢?难道丢了吗

 其实是我这么打印,只输出了第一个’tgt'

print(req.json()['translateResult'][0][0]['tgt'])

 那么拼接一下就行了:

trans = '{}的翻译如下:\n'.format(i)
# print(len(req.json()['translateResult'][0]))
lens = len(req.json()['translateResult'][0])

for each in req.json()['translateResult'][0]:
    trans += str(each['tgt'])
print(trans)

效果图:

可以看到解决了

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值