这是 抓取网络json数据并存入mongodb(1) 的续篇。主要是爬虫实现部分。年前就已经完成了的,现在整理一下。
通过Firebug观察网络请求,分析出请求地址后,可以直接构造url参数获取数据的json。
webmagic爬虫框架灵活好用。这次爬取比较暴力,直接轮询,只把返回为200的页面进行处理(框架默认)并分类存储。
自己上代码,详见注释说明。
import com.mongodb.*;
import com.mongodb.util.JSON;
import org.apache.commons.logging.Log;
import org.apache.commons.logging.LogFactory;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;
import java.net.UnknownHostException;
import java.util.ArrayList;
import java.util.List;
/**
* Created by yiang on 2015/2/16.
*/
public class Shix