【逆向百例】百度翻译js逆向

关注它,不迷路。

本文章中所有内容仅供学习交流,不可用于任何商业用途和非法用途,否则后果自负!

前言

目标

分析某度翻译接口,使用python获取翻译结果,并用pyinstaller打包成单文件可执行程序。

主要反爬点

  • 请求参数
  • cookie

工具

chrome、pycharm、nodejs 18.16.1、python3.10

模块

  • requests:2.31.0
  • re
  • PyExecJS:1.5.1
  • js2py:0.74
  • pyinstaller:6.6.0

基本流程

分析方法

如何分析呢?

举个例子

进到某度翻译网站:aHR0cHMlM0EvL2ZhbnlpLmJhaWR1LmNvbS8=,f12进行抓包,尝试输入翻译的句子或词语,抓取的包如图:

接着我们看下该请求的具体参数:

我们发现,这是个post请求,payload中除了query字段是我们要翻译的数据,还多了其它的参数,如sign,token,ts等。

此时我们会想这些参数是如何产生的?

我们直接上手看看其是如何构造的。

所有的请求都是一个套路,所以这些参数必然是在js代码里生成,并在最终发起请求的时候带上这些参数。

因此我们可以全局搜索(ctrl+shift+f)诸如:simple_means_flag:、token:sign:ts:等关键信息。

我们直接搜索接口关键字v2transapi:

我们发现一个有三个疑似请求的接口,分别点击这三个链接打上断点调试,使用控制变量法定位哪里的断点有效。

发现只有第二个断点有效:

去掉另外两个断点,重点调试第二个断点的上下文。

参数生成解析

我们采取这样的方式重点分析下主要参数的生成。

获取sign值

直接搜索sign的预计会有多个,我们搜索下simple_means_flag:发现,有两个地方,其它参数包括sign刚好在其附近,分别打断点调试:

这里猜测signts应该是变化的值,其中ts初步猜测是时间戳,其它大概率是固定值或枚举值。

鼠标放在这个函数上,跳到这个函数所在的位置:

function(t) 就是我们需要的函数,也就是b函数具体实现:

我们找到了参数生成的地方了,剩下的就是调试,将具体的代码抠出。

运行发现报错,r 没有定义!

继续在网页端断点调试,发现r是一个具体的值,多次测试后其是一个固定值。

我们查看源代码,r是这么定义的:

var r = null;

这就奇怪了,r的固定值320305.131321201是哪来的呢?函数b()中,还有这么一段代码:

var h = (null !== r ? r : (r = window[d] || "") || "").split(".");

这段代码的意思是:

  1. 首先,检查变量r是否不为null,如果是,则直接使用r,否则执行下一步。
  2. 如果rnull,则尝试从window对象中获取属性名为d的属性的值。如果该属性不存在或者为undefined,则将r设置为空字符串。
  3. 接着,如果r为空字符串,则将r设置为一个空字符串。
  4. 最后,将r使用.进行分割,并将结果存储在变量h中。

这段代码主要的目的是从window对象中获取一个键为d的属性的值(如果存在),并将其按.进行分割存储到数组h中。

我们在Watch中查看rd,或者在Scope中查找,发现d为字符串gtk:

我们再来看这个d的值,d就在这条赋值语句的前面:

var d = "".concat(String.fromCharCode(103)).concat(String.fromCharCode(116)).concat(String.fromCharCode(107))

103、116、107 其实分别是g、t、k这三个字符的 ASCII 码值,也就是说,d = "gtk"

全局搜索r的值,发现其刚好是gtk的值:

继续在pycharm中运行,报错window未定义:

补充模拟window对象:

// 模拟 window 对象
var window = {
    gtk: "320305.131321201"
};

再次运行,还是报错缺少依赖函数n:

回到网页js,拿到n函数:

n函数具体实现:


再次运行:

和页面请求一致:

至此,sign解析完成。

获取token

同样,我们仍然先全局搜索token,发现其可能是个固定值。

果然,token参数是也从window全局对象common中获取的,通过搜索发现,token其实和gtk是在同一个页面,那么一样使用正则匹配就能拿到。

cookie反爬

主要是三个BAIDUIDBIDUPSIDsmallFlowVersion,其中smallFlowVersion值为old,其它两个可以请求百度首页获得。
在这里插入图片描述

获取翻译结果

偷个懒,使用现成的网站小工具实现代码转换。https://curlconverter.com/python/

copy翻译接口的curl代码:

curl转python代码生成某度翻译接口的python请求代码:

https://curlconverter.com/python/

然后整合js代码,并稍作封装,即可得到翻译结果。

打包

基本功能没问题,我们可以进一步打包成exe文件进行分发使用,采用tkinter进行ui可视化(yyyy.py):

将python文件和js文件打包成单文件可执行程序:

pyinstaller --onefile --windowed --add-data="某度翻译.js;." -F -i .\xxxx.png .\yyyy.py

或者使用spec配置打包:

# -*- mode: python ; coding: utf-8 -*-


a = Analysis(
    ['yyyy.py'],
    pathex=[],
    binaries=[],
    datas=[('sign.js', '.')],  # 替换为实际的js文件名
    hiddenimports=[],
    hookspath=[],
    hooksconfig={},
    runtime_hooks=[],
    excludes=[],
    noarchive=False,
    optimize=0,
)
pyz = PYZ(a.pure)

exe = EXE(
    pyz,
    a.scripts,
    a.binaries,
    a.datas,
    [],
    name='bd翻译_公众号:海哥python',
    debug=False,
    bootloader_ignore_signals=False,
    strip=False,
    upx=True,
    upx_exclude=[],
    runtime_tmpdir=None,
    console=False,
    disable_windowed_traceback=False,
    argv_emulation=False,
    target_arch=None,
    codesign_identity=None,
    entitlements_file=None,
    icon=['xxxx.png'],  # 替换为实际的照片
)

最后

本文只提供一些思路,随着时间的推移,网站会维护,以上代码不会一直都有效,需要重新分析。

本文章中所有内容仅供学习交流,不可用于任何商业用途和非法用途,否则后果自负!

关注下方名片,后台回复bd翻译获取完整源码。

今天的分享就到这里。如果觉得不错,点赞,在看,关注安排起来吧。

  • 19
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值