phantomjs

在网上一搜一大堆,我也没有多深入研究

我也只是会创建page

var page = require('webpage').create();

设置属性

page.paperSize = {
  width: '1000px',
  height: '700px',
  margin: {
    top: '0px',
    left: '0px'
  }
};

page.open(url, function(status) {
  //console.log("Status: " + status);
  if(status === "success") {
    //console.log(page.content); //输出页面内容
    //在页面里执行函数,并返回结果。
    var txt=page.evaluate(function(){
    	return document.querySelector('body').innerHTML
    })
    console.log(txt);
  }else{
    //失败的输出
    console.log('fail:',url)
  }
  phantom.exit();
});

这些简单的

但它是有一些有用的功能

1、system 

类似于node 执行命令时输入的参数

node里是用process.argv 来接收所有参数。

node XX.js XX 这就是argv的顺序。

system用法 :

var system=require('system');
//args 为 运行的文件和其后的配置
//它不会有phantom 配置参数
var args=system.args;
//console.log(args);
var url=args[1];

phantomjs 执行时可能会有--Xx这些配置,args不会有这些。

xx.js 为下标0。这个功能可以用来做什么?

可以用process_child 创建子进程,执行phantoms代码,传递参数用。

2、对ssl 也就是https的加载

对于s的是抓取不到的需要在运行时加上参数:

phantomjs --ignore-ssl-errors=true --ssl-protocol=any  phantom_giglio.js

执行时设置url

phantomjs --ignore-ssl-errors=true --ssl-protocol=any  phantom_child.js  'url'

最好用双引号哦。

3、process_child 调用,传递加载的url

var spawn = require('child_process').spawn;
	var result=url+'\n';	
	var ls = spawn('phantomjs', ['--ignore-ssl-errors=true','--ssl-protocol=any','phantom_child.js', url]);
	ls.stdout.setEncoding('utf8');
	//当数据返回量大时会分批传递过来
	var body='';
	ls.stdout.on('data', function(data) {
	    body+=data;  

	});
	ls.stderr.on('data', function (data) {
	    //console.error("error ",url, data);	    
	}); 
	// 注册子进程关闭事件 
	ls.on('exit', function (code, signal) { 
		console.log('phantom_child exit code=' + code); 
		//处理数据
	}); 

基础就是进程调用phantomjs 指定--参数和 调用js 还有js需要的参数url

js 里回传用console.log就可以了。

在关闭事件内判断body接收的内容,用cheerio创建


用它来处理ajax的详情页,对于列表url的抓取用request jddom 都可以。

完整的是把phantom.js写在模块,列表里传递url,回调函数内返回过滤的数据。

保存到文件内。





评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值