一.通过相关库调用JavaScript引擎执行JS
- PyV8,不推荐
- Js2Py,不推荐
- PyminiRacer,新库
- PyExecJS,推荐,有多个引擎可选,一般选择NodeJS
安装NodeJS
安装Pyexecjs
pip install pyexecjs
检测运行环境
import execjs
execjs.get().name
output:'Node.js(V8)'
简单JS,直接调用
import execjs
e = execjs.eval('js代码')
复杂JS,compile后调用
import execjs
jstext = '''
function hello(str){return str;}
'''
ctx = execjs.compile(jstext)
a = ctx.call('hello', 'hello world')
print(a)
总结,PyExecJS存在的问题
执行大型JS时偏慢
因为是命令行执行,特殊编码的参数会出现报错情况。解决:将参数使用Base64编码
综合案例:待练习...
二.通过selenium、pyppeteer(puppeteer的python版本)驱动浏览器执行JS
- selenium核心代码
js = ‘js代码’
result = browser.execute_script(js)
综合案例: - pyppeteer核心代码
result = await page.evaluate(js, *data)
result = await page.evaluateOnNewDocument(js, *data)
综合案例: - 总结比较
selenium/pyppeteer是直接驱动浏览器执行JS,具备浏览器环境,即便JS中使用了浏览器属性,也可正常执行,而pyppeteer相对于selenium效率更高,缺点:相比于PyExecJS,执行效率低,消耗资源高
三.通过NodeJS直接执行JS
- 即开放一个服务,提供爬虫服务
- 问题:浏览器的全局对象为window,NodeJS的全局对象为global,故在执行时存在一些问题。解决:使用jsdom库,用于模拟window、document等对象
- 问题:window.btoa可以做base64的编码操作,而window.btoa在nodejs中不存在。解决:Buffer.from(‘NightTeam’).toString(‘base64’)
- 综合案例