1. 爬虫框架webmagic
WebMagic是一个简单灵活的爬虫框架。基于WebMagic,你可以快速开发出一个高效、易维护的爬虫。
1.1 官网地址
官网文档写的比较清楚,建议大家直接阅读官方文档,也可以阅读下面的内容。地址如下:
2. webmagic与spring boot框架集成
spring boot与webmagic的结合主要有三个模块,分别为爬取模块Processor,入库模块Pipeline,向数据库存入爬取数据,和定时任务模块Scheduled,复制定时爬取网站数据。
2.1 maven添加
us.codecraft
webmagic-core
0.5.3
us.codecraft
webmagic-extension
0.5.3
2.2 爬取模块Processor
爬取简书首页Processor,分析简书首页的页面数据,获取响应的简书链接和标题,放入wegmagic的Page中,到入库模块取出添加到数据库。代码如下:
package com.shang.spray.common.processor;
import com.shang.spray.entity.News;
import com.shang.spray.entity.Sources;
import com.shang.spray.pipeline.NewsPipeline;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;
import us.codecraft.webmagic.selector.Selectable;
import java.util.List;
/**
* info:简书首页爬虫
* Created by shang on 16/9/9.
*/
public class JianShuProcessor implements PageProcessor {
private Site site = Site.me()
.setDomain("jianshu.com")
.setSleepTime(100)
.setUserAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36");
;
public static final String list = "http://www.jianshu.com&#