手把手教你用 Python 执行 JS 代码

点击上方“编程派”,选择设为“设为星标”

优质文章,第一时间送达!

前言

各位小伙伴,大家好,这次咱们来说一下关于爬虫方向的一个知识,Python如何执行JS,快来看看吧~

为什么要引出Python执行js这个问题?

都说术业有专攻,每个语言也都有自己的长处和短处。在爬虫方向,Python绝对是扛把子,近几年随着AI的火爆,需要各种各样的数据,所以,爬虫需求也跟着水涨船高起来。

我们做爬虫的当然是爬的爽,但是估计人家后台在骂街,毕竟谁都不希望自己的数据被弄走,所以后台反爬技术也在快速提升,一攻一防就这么在拉锯着。

现在为了防止反爬,前端使用的反爬技术比较多的是js代码混淆。

什么是js代码混淆?

正常代码

我们现在看一段js代码,代码逻辑很简单,就是拼接时间返回。

function formatDate(now) { 
    var now = new Date(1230999938); 
    var year=now.getFullYear(); 
    var month=now.getMonth()+1; 
    var date=now.getDate(); 
    var hour=now.getHours(); 
    var minute=now.getMinutes(); 
    var second=now.getSeconds(); 
    return year+"-"+month+"-"+date+" "+hour+":"+minute+":"+second; 
} 

运行一下这段代码,如下图所示。

混淆代码

我随便找了个在线的js代码混淆网站。

js代码
function formatDate(mz1){var KkkGDiH2=new window\"\\x44\\x61\\x74\\x65"\]\(1230999938\);var tsk3=KkkGDiH2\['\\x67\\x65\\x74\\x46\\x75\\x6c\\x6c\\x59\\x65\\x61\\x72'\]\(\);var YMreyP4=KkkGDiH2\['\\x67\\x65\\x74\\x4d\\x6f\\x6e\\x74\\x68'\]\(\)+1;var Ozo5=KkkGDiH2\['\\x67\\x65\\x74\\x44\\x61\\x74\\x65'\]\(\);var QMYEc\$eD6=KkkGDiH2\['\\x67\\x65\\x74\\x48\\x6f\\x75\\x72\\x73'\]\(\);var JfXVV\_Akq7=KkkGDiH2\['\\x67\\x65\\x74\\x4d\\x69\\x6e\\x75\\x74\\x65\\x73'\]\(\);var \$mP8=KkkGDiH2\['\\x67\\x65\\x74\\x53\\x65\\x63\\x6f\\x6e\\x64\\x73'\]\(\);return tsk3+"\\x2d"+YMreyP4+"\\x2d"+Ozo5+" "+QMYEc\$eD6+"\\x3a"+JfXVV\_Akq7+"\\x3a"+\$mP8 

上面这个真的不是我瞎写的,混淆之后就是这样子的,不信看图片。

可能我们会有个疑问,js代码都成这玩意了,还能执行吗? 答案是肯定的。即使js代码非常乱,但还是可以执行的,结果跟上面的是一样的。

这就造成了一个问题,我们在做爬虫时,如果需要,多多少少可能都要研究一下js代码,然后进行js解密一下,但是,但是,要是代码都混淆成了这了,还怎么解?

一点逻辑都看不通了,基本上不可用Python按照js逻辑重写出来了...

很巧,小编也是卡在这里...后来我就想,要是Python能执行js代码就好了,不用管函数里面的逻辑了,只拿函数返回值就好了。

Python第三方包Execjs

可能是吧,不止我一个人遇到了这种情况,所以大佬们就开发出来这种工具包,用于执行js代码。

安装

在安装之前,需要有node环境,这里就不举栗子了,下一步下一步就好了。

pip3 install PyExecJS 

Execjs用法超级简单的,几行代码。

执行js

注:由于上述js代码会生成window对象,并不能直接执行成功,需要额外的其他辅助,这里简单的举一下其他例子。

正常js代码
function add(x, y) { 
   return x + y; 
} 
Python执行js代码
import execjs 
 
ctx = execjs.compile(""" 
function add(x, y) { 
  return x + y; 
} 
"""\) 
print(ctx.call("add", 1, 2)) 

执行结果如下图所示:

混淆js代码

function add(bi1,Pl$2){return bi1+Pl$2} 

Python执行混淆js代码

import execjs 
 
ctx = execjs.compile(""" 
function add(bi1,Pl$2){return bi1+Pl$2} 
""") 
print(ctx.call("add", 1, 2)) 

执行结果如下图所示:

可以看到,即使再混淆,只要执行的是js代码,都是没啥问题的。

上述拼接时间返回的js混淆代码也是可以执行的,但是它多了一个window对象,需要node安装jsdom才行,由于网络设置有问题,实在是下载不了举例子,实在是抱歉。

或者使用selenium打开游览器执行再返回也行,当然,速度更慢。

结尾

反爬和爬虫一直都是一攻一防,以后可能这种情况会更严重,但是在Python庞大的生态中总能找到不错的方案。人生苦短,Python当歌。

回复下方「关键词」,获取优质资源

回复关键词「 pybook03」,立即获取主页君与小伙伴一起翻译的《Think Python 2e》电子版
回复关键词「入门资料」,立即获取主页君整理的 10 本 Python 入门书的电子版
回复关键词「m」,立即获取Python精选优质文章合集
回复关键词「book 数字」,将数字替换成 0 及以上数字,有惊喜好礼哦~
题图:pexels,CC0 授权。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值