java 解析渲染html_在任何Java程序(访问渲染的DOM树)中渲染JavaScript和HTML?

我知道这个问题一定在这里被问到,但是通过搜索我没有找到解决方案:

我的问题是:什么是最好的Java库,“完全下载任何渗透和渲染内置的JavaScript,然后以编程方式访问渲染网页(即DOM-Tree!),并将DOM树作为”HTML -资源”.

(类似地,firebug做的最终,它渲染页面,我可以访问完全渲染的DOM树,因为页面看起来像在浏览器!相反,如果我点击“显示源”,我只得到JavaScript源代码这不是我想要的,我需要访问渲染的页面…)

(与渲染我的意思是只渲染DOM树不是可视化渲染…)

这不一定是一个单独的库,可以使用几个可以一起完成这些功能的库(一个将下载,一个渲染),但是由于JavaScript的动态特性,很可能JavaScript库也必须具有某种下载器完全呈现任何异步JS …

背景:

在“好的旧时代”中,HttpClient(Apache Library)是构建您自己的非常简单的抓取工具所需的一切. (很多像Nutch或Heretrix这样的cralwers仍然围绕着这个核心原则,主要集中于标准HTML解析,所以我无法从中学到)

我的问题是,我需要抓取一些严重依赖JavaScript的网站,并且我无法使用HttpClient解析,因为我无需执行JavaScripts之前…

非常感谢你!!

蒂姆

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值