phantomjs 抓取网页

phantomjs:我的理解就是它是一个无显示的浏览器,也就是说除了不能显示页面内容以外,浏览器能干的活儿它基本上都能干。so,最近由于实验需要,要从某电商爬一点图片,但是它又是AJAX生成的,单纯的爬取HTML的方法是行不通的,o(╯□╰)o,于是在经过一些求助后,;了解到了PHANTOMJS,鉴于网上没找到太多实例,只好自己总结下以备不时之需。另外直接查看官网上的说明文档会有很大收获滴~顺便锻炼下自己英文嘛o(╯□╰)o。下面举个栗子来具体实现:

把phantom下载解压到D盘,在目录下有phantomjs.exe文件(win7) 通过js文件可以调用这个WebKit来达到需要的目的:比方说生成网页快照之类吧。我要做的是爬AJAX页面上的图片。先看js文件:命名为s.js

system = require('system')   //传递一些需要的参数给js文件

address = system.args[1];//获得命令行第二个参数 ,也就是指定要加载的页面地址,接下来会用到  

var page = require('webpage').create();

var url = address;


page.open(url, function (status) {

    if (status !== 'success') {

        console.log('Unable to post!');
    } else {

        var encodings = ["euc-jp", "sjis", "utf8", "System"];//这一步是用来测试输出的编码格式,选择合适的编码格式很重要,不然你抓取下来的页面会乱码o(╯□╰)o,给出的几个编码格式是官网上的例子,根据具体需要自己去调整。

        for (var i = 3; i < encodings.length; i++) {//我这里只要一种编码就OK啦

            phantom.outputEncoding = encodings[i];

            console.log(phantom.outputEncoding+page.content);//最后返回webkit加载之后的页面内容
        }

    }
    phantom.exit();
});   


接下来就是java类的编写:

package com.mvc.rest;

import java.io.BufferedReader;
import java.io.InputStream;
import java.io.InputStreamReader;

public class GetAjaxHtml {
	public static String getAjaxContent(String url) throws Exception {
		Runtime rt = Runtime.getRuntime();
		Process p = rt.exec("D:/tools/phantomjs/phantomjs.exe D:/tools/phantomjs/examples/s.js " + url);
		InputStream is = p.getInputStream();
		BufferedReader br = new BufferedReader(new InputStreamReader(is));
		StringBuffer sbf = new StringBuffer();
		String tmp = "";
		while((tmp=br.readLine())!=null) {
			sbf.append(tmp + "\n");
		}
		return sbf.toString();
	}
	
	public static void main(String[] args) throws Exception {
		long start = System.currentTimeMillis();
		String result = getAjaxContent("http://114.111.162.220:8093/404Web/");
		System.out.println(result);
		long end = System.currentTimeMillis();
		System.out.println("===============耗时:" + (end - start) + "===============");
	}
}


到这里,就得到了所需要的AJAX完整页面的代码字符串了,接下来就可以do whatever you want啦
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值