htmlunit应用到爬虫上来解析JS的问题(javascirpt 解析)

我目前致力于解决怎么在搜索引擎的爬虫中的解析问题,具体是怎么解析动态网页中的URL出来,这些URL需要JAVASCRIPT的解析才能获得完整的链接信息,不是简单地找href,window.open,location然后用正则表达式就能解决。

尝试用htmlunit这个JAVA的模拟浏览器来解决这个问题,里面使用了rhino犀牛这个javascript解析引擎.(目前我用最新版2.12了)

目前我发现一个问题,就是htmlunit中的执行脚本的API,执行同一个javascript的function函数,第一次可以返回正确结果,第二次返回结果就不正确了,第二次还是调用同一个函数,不同参数,可能返回结果和第一次调用的时候一模一样,无论输入参数改成什么,这是不是它的一个BUG呢?

但是执行不同的function函数,能保证不同的结果,因为其第一次运行的结果是正确的,第二次开始就不能解析正确,感觉就像直接返回了之前调用的结果而已,这么一个软件怎么会出现这个问题,不应该啊

请问有什么解决办法??有哪位碰到过类似的问题吗?

评论 17
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值