获取网页快照,我们用 phantomjs 来实现:
我的环境是CentOS,安装时直接下载 tarball 然后解压即可。
# wget https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-1.9.8-linux-i686.tar.bz2
# tar -jxvf phantomjs-1.9.8-linux-i686.tar.bz2
# cp phantomjs-1.9.8-linux-i686/bin/phantomjs /bin/phantomjs
第二步中解压后bin目录下的 phantomjs 二进制文件即是可调用命令。
第三步是为了在以后调用命令时不必输入命令全路径。
phantomjs的调用需要一个js脚本。这个js脚本接收两个参数,分别是网址url和快照文件名称filename,脚本snap.js内容如下:
var page = require('webpage').create();
var args = require('system').args;
var pageW = 1024;
var pageH = 768;
page.viewportSize = {
width: pageW,
height: pageH
};
var url = args[1];
var filename = args[2];
page.open(url, function (status) {
if (status !== 'success') {
console.log('Unable to load ' + url + ' !');
phantom.exit();
} else {
window.setTimeout(function () {
page.clipRect = { left: 0, top: 0, width: pageW, height: pageH };
page.render(filename);
console.log('finish:', filename);
phantom.exit();
}, 1000);
}
});
在这个脚本中还有个小小的设置,就是设置打开页面的浏览器可视区域的大小为1024*768,然后取第一屏内容。
调用命令如下:
phantomjs snap.js http://www.jincon.com jincon.png
注意写入图片要对目录有写入权限。