前两个月公司派了个任务,抓某个网站的数据。可是这个网站的数据是用json渲染的,并且获取这个json的 ajax请求与链接也是有随机参数的。常规的方法一直在纠结,于是想为什么不把浏览器放到后台去抓,反正谷歌浏览器很快的。
找啊找啊找,找到了PhantomJS,这个无头浏览器。好东西。
它抓数据的代码写在JS里的。JS代码示例如下:
"use strict";
var page = require('webpage').create(),
system = require('system'),
t,address,all_url,sblock_urls,url;
t = Date.now();
if (system.args.length === 1) {
console.log('找不到地址值');
phantom.exit(1);
} else {
address = system.args[1];
page.settings.loadImages = false;
"use strict";
var page = require('webpage').create(),
system = require('system'),
t,address,all_url,sblock_urls,url;
t = Date.now();
if (system.args.length === 1) {
console.log('找不到地址值');
phantom.exit(1);
} else {
address = system.args[1];
page.settings.loadImages = false;//不渲染图片了,太卡
page.settings.javascrip