springboot添加webmagic_爬虫框架webmagic与spring boot的结合使用

本文介绍了如何将WebMagic爬虫框架与Spring Boot结合使用,包括爬取模块Processor、入库模块Pipeline和定时任务模块Scheduled的配置。通过示例展示了如何爬取简书首页并保存数据到数据库。
摘要由CSDN通过智能技术生成

c3fc3129407d

1. 爬虫框架webmagic

WebMagic是一个简单灵活的爬虫框架。基于WebMagic,你可以快速开发出一个高效、易维护的爬虫。

1.1 官网地址

官网文档写的比较清楚,建议大家直接阅读官方文档,也可以阅读下面的内容。地址如下:

2. webmagic与spring boot框架集成

spring boot与webmagic的结合主要有三个模块,分别为爬取模块Processor,入库模块Pipeline,向数据库存入爬取数据,和定时任务模块Scheduled,复制定时爬取网站数据。

2.1 maven添加

us.codecraft

webmagic-core

0.5.3

us.codecraft

webmagic-extension

0.5.3

2.2 爬取模块Processor

爬取简书首页Processor,分析简书首页的页面数据,获取响应的简书链接和标题,放入wegmagic的Page中,到入库模块取出添加到数据库。代码如下:

package com.shang.spray.common.processor;

import com.shang.spray.entity.News;

import com.shang.spray.entity.Sources;

import com.shang.spray.pipeline.NewsPipeline;

import us.codecraft.webmagic.Page;

import us.codecraft.webmagic.Site;

import us.codecraft.webmagic.Spider;

import us.codecraft.webmagic.processor.PageProcessor;

import us.codecraft.webmagic.selector.Selectable;

import java.util.List;

/**

* info:简书首页爬虫

* Created by shang on 16/9/9.

*/

public class JianShuProcessor implements PageProcessor {

private Site site = Site.me()

.setDomain("jianshu.com")

.setSleepTime(100)

.setUserAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36");

;

public static final String list = "http://www.jianshu.com&#

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值