我知道这个问题一定在这里被问到,但是通过搜索我没有找到解决方案:
我的问题是:什么是最好的Java库,“完全下载任何渗透和渲染内置的JavaScript,然后以编程方式访问渲染网页(即DOM-Tree!),并将DOM树作为”HTML -资源”.
(类似地,firebug做的最终,它渲染页面,我可以访问完全渲染的DOM树,因为页面看起来像在浏览器!相反,如果我点击“显示源”,我只得到JavaScript源代码这不是我想要的,我需要访问渲染的页面…)
(与渲染我的意思是只渲染DOM树不是可视化渲染…)
这不一定是一个单独的库,可以使用几个可以一起完成这些功能的库(一个将下载,一个渲染),但是由于JavaScript的动态特性,很可能JavaScript库也必须具有某种下载器完全呈现任何异步JS …
背景:
在“好的旧时代”中,HttpClient(Apache Library)是构建您自己的非常简单的抓取工具所需的一切. (很多像Nutch或Heretrix这样的cralwers仍然围绕着这个核心原则,主要集中于标准HTML解析,所以我无法从中学到)
我的问题是,我需要抓取一些严重依赖JavaScript的网站,并且我无法使用HttpClient解析,因为我无需执行JavaScripts之前…
非常感谢你!!
蒂姆