我目前致力于解决怎么在搜索引擎的爬虫中的解析问题,具体是怎么解析动态网页中的URL出来,这些URL需要JAVASCRIPT的解析才能获得完整的链接信息,不是简单地找href,window.open,location然后用正则表达式就能解决。
尝试用htmlunit这个JAVA的模拟浏览器来解决这个问题,里面使用了rhino犀牛这个javascript解析引擎.(目前我用最新版2.12了)
目前我发现一个问题,就是htmlunit中的执行脚本的API,执行同一个javascript的function函数,第一次可以返回正确结果,第二次返回结果就不正确了,第二次还是调用同一个函数,不同参数,可能返回结果和第一次调用的时候一模一样,无论输入参数改成什么,这是不是它的一个BUG呢?
但是执行不同的function函数,能保证不同的结果,因为其第一次运行的结果是正确的,第二次开始就不能解析正确,感觉就像直接返回了之前调用的结果而已,这么一个软件怎么会出现这个问题,不应该啊
请问有什么解决办法??有哪位碰到过类似的问题吗?