PhantomJS
PhantomJS用来爬取动态网页的数据
牛八少爷
工欲善其事,必先利其器
展开
-
Java抓取动态加载js后的网页-PhantomJS
最近有一个抓取网页内容的需求,但是加载的网页的有的元素是通过js动态加载完成的,使用简单的HttpURLConnection无法运行js文件。 此篇介绍一个PhantomJS的API,PhantomJS是一个基于webkit的JavaScript API。它使用QtWebKit作为它核心浏览器的功能,使用webkit来编译解释执行JavaScript代码。它不仅是个隐...原创 2018-12-21 16:25:15 · 2176 阅读 · 0 评论 -
PhantomJS-抓取运行js后的动态网页简单案例(二)
此篇是抓取运行js后的网页,如果需要解析DOM可以结合Jsoup;1. 下载PhantomJS官网:http://phantomjs.org/2. PhantomJS整合解压下载zip后把PhantomJS.exe拷贝到项目目录下;3. PhantomJS需要js文件PhantomJS需要通过js文件获取html数据流,在项目的目录下创建js文件;j...原创 2018-12-21 16:40:28 · 3689 阅读 · 3 评论 -
PhantomJS-加载不稳定,有时候js运行失败(三)
PhantomJS有时候加载不稳定,有时候js加载失败,这个可能是网页的js还没有加载完成,PhantomJS进输出流到Java;解决方案:加载网页时,使用setTimeout设置延时,等待网页加载完成js后再输出流到java;system = require('system')address = system.args[1];// 获得命令行第二个参数 接下来会用到// conso...原创 2018-12-21 16:55:01 · 2269 阅读 · 0 评论