找了几个获取网站快照和缩略图的方法,最后决定使用phantomjs。Phantom JS是一个服务器端的 JavaScript API 的 WebKit。其支持各种Web标准: DOM 处理, CSS 选择器, JSON, Canvas, 和 SVG。他可以被应用到web测试,页面访问自动化,屏幕捕获和网络监控等。
安装
官网:http://phantomjs.org/
下载地址:https://bitbucket.org/ariya/phantomjs/downloads/
现在最新版是2.0,不过linux系统没有build。自己build出问题的记录比较大。我选择的是1.9.8这个版本。
# wget https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-1.9.8-linux-x86_64.tar.bz2
# tar jxvf phantomjs-1.9.8-linux-x86_64.tar.bz2
# cd cd phantomjs-1.9.8-linux-x86_64
# cp bin/phantomjs /usr/bin
解压缩后里面有多个example,具体用法详见官方文档。
调用
phantomjs的使用需要调用js,example中也是一些js例子。屏幕截图的js如下,参考。
/*
* desc: get snapshot from url
* author: 十年后的卢哥哥(http://www.cnblogs.com/lurenjiashuo/)
* example: phantomjs snap.js http://www.baidu.com baidu.png
*/
var page = require('webpage').create();
var args = require('system').args;
var pageW = 1024;
var pageH = 768;
page.viewportSize = {
width: pageW,
height: pageH
};
var url = args[1];
var filename = args[2];
page.open(url, function (status) {
if (status !== 'success') {
console.log('Unable to load ' + url + ' !');
phantom.exit();
} else {
window.setTimeout(function () {
page.clipRect = { left: 0, top: 0, width: pageW, height: pageH };
page.render(filename);
console.log('finish:', filename);
phantom.exit();
}, 1000);
}
});
默认脚本中使用1024*768分辨率打开。
用法
phantomjs的最简单用法。
# phantomjs snap.js https://zhangnq.com blog.nbhao.org.jpg
如果碰到截取中文页面的网站出现乱码或者方框,安装下面语言包解决。
# yum install bitmap-fonts bitmap-fonts-cjk
或者
# sudo apt-get install xfonts-wqy
缩略图
安装ImageMagick。
# yum install ImageMagick ImageMagick-devel
用法
# convert -resize 320x240 blog.nbhao.org.jpg blog.nbhao.org_thumbnail.jpg
使用这个方法获取网站缩略图的效果可以参考页面:http://www.hostunion.net/webdir/
参考连接:http://www.cnblogs.com/lurenjiashuo/p/get-snapshot-and-create-thumbnail.html