网页信息采集工具

1. pantomjs

命令行方式,内部通过webkit去加载文件。

目前对网页的不同阶段支持有限,无法监测connect和dns时间。

虽然是命令行方式,但是仍然支持screenshot


2. selenium+firefox+firebug+netexplor

selenium是一款用于web测试的工具。它通过操作本地的浏览器进行模拟测试。

相当强大,可以对浏览器的profile(首页,插件如何启动,是否检查更新),控件进行定制化,不过启动速度稍慢。


3. HAR, Http Archive, HTTP监测工具的一个数据标准,被多个采集和显示工具支持


BTW

pantomjs生成pdf

使用方法如下:

generate_pdf.js:

// This file is NOT a browser-run javascript but PhantonJS script

 

var system = require('system');

var html_path = system.args[1];

var pdf_path = system.args[2];

 

var page = require('webpage').create();

page.paperSize = {

  format: 'A4',

  orientation: 'landscape',

  border: '1cm'

};

  #phantomjs generate_pdf.js http://www.google.com google.pdf

page.open(html_path, function () {

    page.render(pdf_path);

    phantom.exit();

});


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值