抓取网络json数据并存入mongodb（2）

最新推荐文章于 2019-06-02 23:38:34 发布

parallel0

最新推荐文章于 2019-06-02 23:38:34 发布

阅读量4.5k

点赞数

分类专栏： engineering webcrawler 文章标签：网络爬虫 webmagic mongodb

本文链接：https://blog.csdn.net/G1Apassz/article/details/43898081

版权

本文是关于抓取网络JSON数据并存入MongoDB系列的第二部分，主要介绍使用webmagic爬虫框架实现数据抓取。通过分析网络请求，获取JSON数据，并利用webmagic进行轮询爬取，将状态码为200的页面内容分类存储到MongoDB。

摘要由CSDN通过智能技术生成

这是抓取网络json数据并存入mongodb（1）的续篇。主要是爬虫实现部分。年前就已经完成了的，现在整理一下。

通过Firebug观察网络请求，分析出请求地址后，可以直接构造url参数获取数据的json。

webmagic爬虫框架灵活好用。这次爬取比较暴力，直接轮询，只把返回为200的页面进行处理（框架默认）并分类存储。

自己上代码，详见注释说明。

import com.mongodb.*;
import com.mongodb.util.JSON;
import org.apache.commons.logging.Log;
import org.apache.commons.logging.LogFactory;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;

import java.net.UnknownHostException;
import java.util.ArrayList;
import java.util.List;

/**
 * Created by yiang on 2015/2/16.
 */
public class Shix