最近有一个抓取网页内容的需求,但是加载的网页的有的元素是通过js动态加载完成的,使用简单的HttpURLConnection无法运行js文件。
此篇介绍一个PhantomJS的API,PhantomJS是一个基于webkit的JavaScript API。它使用QtWebKit作为它核心浏览器的功能,使用webkit来编译解释执行JavaScript代码。它不仅是个隐形的浏览器,提供了诸如CSS选择器、支持Web标准、DOM操作、JSON、HTML5、Canvas、SVG等,同时也提供了处理文件I/O的操作,从而使你可以向操作系统读写文件等。
PhantomJS的用处可谓非常广泛,诸如网络监测、网页截屏、无需浏览器的 Web 测试、页面访问自动化等。
PhantomJS的官网:http://phantomjs.org/
在PhantomJS官网然后点击“Install”进行下载;
Java整合PhantomJS案例:
https://blog.csdn.net/niuba123456/article/details/85164274