写在前面
最近项目里边需要在Java中使用爬虫技术,原本打算用python写好爬虫然后用Java来调用,但是在网上找了许多Java调用python代码的方法,发现其中的用法都十分重量级,要不就把Jython解释器整个弄来,要不就直接在命令行运行python文件,这都不是我想要的。权衡再三后决定用Java把爬虫重新实现一遍,不得不说,语言和语言之间的区别不是一点半点。下面是我在代码移植过程中遇到的几个坑:
javax.script包解析JS时出现的问题
要爬的网站在数据加密方面下了功夫,用户请求得到的数据都是密文,需要网站自带的JS代码进行解密,千辛万苦把用来解密的JS代码扒出来后,使用python的execjs包完美运行~~将代码移植到Java上的时候,百度发现Java中有专门用来解析脚本文件的javax,script包,兴冲冲的直接用上,一运行,我蒙了,控制台飘红,JS运行出错了:
t.slice is not a function
吓得我赶紧看了看JS代码,没错啊,在python上完美运行的也是这代码,怎么换到Java上就不行了呢??
命名冲突?我赶紧把同名的变量全部改了名字,又用python运行了一遍,能够正常运行,再转到Java,期待能够解决,没料想不但没有解决,错误还多了几行…
本来就没有什么js经验的我顿时慌了阵脚,赶紧百度看看相关问题别人是怎么解决的,结果网上也多是一些牛头不对马嘴的回答,几个小时就这么过去了,后来突然想到