需求背景
SpringBoot用法:爬虫框架集成
业务场景
以抓取“今日头条”新闻举例说明
技术点
1. 集成爬虫框架webmagic(更多了解webmagic,可以去官方地址)
<dependency>
<groupId>us.codecraft</groupId>
<artifactId>webmagic-extension</artifactId>
<version>0.6.0</version>
</dependency>
WebMagic是一个简单灵活的Java爬虫框架。基于WebMagic,你可以快速开发出一个高效、易维护的爬虫程序
特性:
- 简单的API,可快速上手
- 模块化的结构,可轻松扩展
- 提供多线程和分布式支持
代码演示
1. 项目目录结构
2. pom.xml依赖组件
<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<parent>
<groupId>com.md</groupId>
<artifactId>spring-boot2-parent</artifactId>
<version>0.0.1-SNAPSHOT</version>
<relativePath>../pom.xml</relativePath>
</parent>
<artifactId>spring-boot2-crawler</artifactId>
<packaging>jar</packaging>
<name>spring-boot2-crawler</name>
<description>Spring Boot, MVC, Rest API for App</description>
<properties>
<project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
<java.version>1.8</java.version>
</properties>
<dependencies>
<dependency>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter</artifactId>
</dependency>
<!-- 构建成可运行的Web项目 -->
<dependency>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter-web</artifactId>
</dependency>
<dependency>
<groupId>net.sf.json-lib</groupId>
<artifactId>json-lib-ext-spring</artifactId>
</dependency>
<dependency>
<groupId>org.projectlombok</groupId>
<artifactId>lombok</artifactId>
<optional>true</optional>
</dependency>
<!-- webmagic 爬虫工具类 -->
<dependency>
<groupId>us.codecraft</groupId>
<artifactId>webmagic-extension</artifactId>
<version>0.6.0</version>
</dependency>
<dependency>
<groupId>org.nlpcn</groupId>
<artifactId>nlp-lang</artifactId>
<version>1.7</version>
</dependency>
</dependencies>
<build>
<plugins>
<plugin>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-maven-plugin</artifactId>
</plugin>
</plugins>
</build>
</project>
3. 爬虫核心解析类
MyPageProcessor:
package com.md.demo.crawler.test;
import java.util.List;
import org.nlpcn.commons.lang.finger.SimHashService;
import lombok.extern.slf4j.Slf4j;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;
import us.codecraft.webmagic.selector.JsonPathSelector;
/**
* 官方地址:http://webmagic.io/
*
* WebMagic是一个简单灵活的Java爬虫框架。基于WebMagic,你可以快速开发出一个高效、易维护的爬虫。
*
* @author Minbo
*
*/
@Slf4j
public class MyPageProcessor implements PageProcessor {
private Site site = Site.me();
@Override
public void process(Page page) {
// 这里使用了jsonPath,因为今日头条返回的是json数据格式。如果是html内容,则使用xpath
// 第一层解析
String json = page.getRawText();
List<String> data = new JsonPathSelector("$.data").selectList(json);
// 第二层解析
for (int i = 0; i < data.size(); i++) {
String result = data.get(i);
// 文章ID
String item_id = new JsonPathSelector("$.item_id").select(result);
// 文章标题
String title = new JsonPathSelector("$.title").select(result);
// 是否有图
String has_image = new JsonPathSelector("$.has_image").select(result);
// 文章来源
String source = new JsonPathSelector("$.source").select(result);
// 文章时间
String datetime = new JsonPathSelector("$.datetime").select(result);
// 一般是根据文章详细内容生成内容指纹id,实现文章去重,这里只是举例说明拿了文章标题
// 更多阅读我的博客文章:https://blog.csdn.net/hemin1003/article/details/82819489(【应用算法】信息流-推荐系统的去重策略)
String fPrintId = String.valueOf(new SimHashService().fingerprint(title));
log.info("");
log.info("---------->>> 提取文章主信息:");
log.info("文章ID item_id=" + item_id);
log.info("文章标题 title=" + title);
log.info("是否有图 has_image=" + has_image);
log.info("文章来源 source=" + source);
log.info("文章时间 datetime=" + datetime);
log.info("内容指纹id fPrintId=" + fPrintId);
// webmagic官方还有很多案例,更多内容自行参考学习了,例如配置代理,自带url去重、网页去重等功能
// 官方文档地址:http://webmagic.io/docs/zh/
}
}
public Site getSite() {
return MySite.getSit(site);
}
public static void main(String[] args) {
// 今日头条/热点数据url
Spider.create(new MyPageProcessor()).addUrl(
"https://m.toutiao.com/list/?tag=news_hot&ac=wap&count=20&format=json_raw&as=A1551E75BC4CF9C&cp=5E5C3CEFB9DCAE1&max_behot_time=1583123351&_signature=CXZIuwAAVy.txcPhjSEcTwl2SK&i=1583123351")
.thread(1).run();
}
}
MySite:
package com.md.demo.crawler.test;
import us.codecraft.webmagic.Site;
/**
* 模拟请求头设置
*
* @author Minbo
*
*/
public class MySite {
// 设置请求头
public static Site getSit(Site site) {
site.addHeader("Accept", "*/*");
site.addHeader("Accept-Encoding", "gzip, deflate, br");
site.addHeader("Accept-Language", "en-US,en;q=0.9,zh-CN;q=0.8,zh;q=0.7,zh-TW;q=0.6,cy;q=0.5");
site.addHeader("Connection", "keep-alive");
site.addHeader("Cookie",
"uuid=\"w:6eeae48e765542f8816b14bd1a8803f2\"; tt_webid=6799537520192783879; csrftoken=3eb88bcad1818058de0e3c0ca8a3f6d1; W2atIF=1; _ga=GA1.2.2115719807.1583140719; _gid=GA1.2.359266539.1583140719; __tasessionId=tr7vk2kgh1583140721519");
site.addHeader("Host", "m.toutiao.com");
site.addHeader("Referer", "https://m.toutiao.com/?w2atif=1&channel=news_hot");
site.addHeader("Sec-Fetch-Dest", "empty");
site.addHeader("Sec-Fetch-Mode", "cors");
site.addHeader("Sec-Fetch-Site", "same-origin");
site.addHeader("Upgrade-Insecure-Requests", "1");
site.addHeader("User-Agent",
"Mozilla/5.0 (iPhone; CPU iPhone OS 13_2_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.3 Mobile/15E148 Safari/604.1");
site.setTimeOut(60000);
site.setCharset("UTF-8");
site.setRetryTimes(2);
return site;
}
}
4. 文章去重工具类
TestNlp:
package com.md.demo.nlp.test;
import org.nlpcn.commons.lang.finger.FingerprintService;
import org.nlpcn.commons.lang.finger.SimHashService;
/**
* 指纹去重库Github地址:https://github.com/hemin1003/nlp-lang
*
* 更多阅读:https://blog.csdn.net/hemin1003/article/details/82819489(【应用算法】信息流-推荐系统的去重策略)
*
* @author Minbo
*/
public class TestNlp {
/**
* 任何一段信息文字,都可以对应一个不太长的随机数,作为区别它和其它信息的指纹(Fingerprint)。
* 只要算法设计的好,任何两段信息的指纹都很难重复,就如同人类的指纹一样。信息指纹在加密、信息压缩和处理中有着广泛的应用。
* 这里的做法是文章抽取特征词,压缩为md5指纹。利用这些指纹进行hash去重。广泛应用在搜索结果、推荐结果去重。
*/
public static void main(String[] args) {
String content = "卓尔防线继续伤筋动骨 队长梅方出场再补漏说起来卓尔队长梅方本赛季就是个“补漏”的命!在中卫与右边后卫间不停地轮换。如果不出意外,今天与广州恒大一战梅方又要换位置,这也是汉军队长连续三场比赛中的第三次换位。而从梅方的身上也可以看出,本赛季汉军防线如此“折腾”,丢球多也不奇怪了。梅方自2009赛季中乙出道便一直司职中后卫,还曾入选过布拉泽维奇国奥队,也是司职的中卫。上赛季,梅方与忻峰搭档双中卫帮助武汉卓尔队中超成功,但谁知进入本赛季后从第一场比赛开始梅方便不断因为种种“意外”而居无定所。联赛首战江苏舜天时,也是由于登贝莱受伤,朱挺位置前移,梅方临危受命客串右边后卫。第二轮主场与北京国安之战梅方仅仅打了一场中卫,又因为柯钊受罚停赛4轮而不得不再次到边路“补漏”。随着马丁诺维奇被弃用,梅方一度成为中卫首选,在与上海东亚队比赛中,邱添一停赛,梅方与忻峰再度携手,紧接着与申鑫队比赛中移至边路,本轮忻峰又停赛,梅方和邱添一成为中卫线上最后的选择。至于左右边后卫位置,卓尔队方面人选较多,罗毅、周恒、刘尚坤等人均可出战。记者马万勇原标题:卓尔防线继续伤筋动骨队长梅方出场再补漏稿源:中新网作者:";
String content2 = "在中卫与右边后卫间不停地轮换。卓尔防线继续伤筋动骨 队长梅方出场再补漏说起来卓尔队长梅方本赛季就是个“补漏”的命!还曾入选过布拉泽维奇国奥队,也是司职的中卫。上赛季,梅方与忻峰搭档双中卫帮助武汉卓尔队中超成功,但谁知进入本赛季后从第一场比赛开始梅方便不断因为种种“意外”而居无定所。";
// 方式1
// String f1 = new FingerprintService().fingerprint(content);
// String f2 = new FingerprintService().fingerprint(content2);
// System.out.println(f1);
// System.out.println(f2);
// System.out.println(f1.equals(f2));
// 方式2
SimHashService service = new SimHashService();
String f3 = String.valueOf(service.fingerprint(content));
String f4 = String.valueOf(service.fingerprint(content2));
System.out.println(f3);
System.out.println(f4);
System.out.println(f3.equals(f4));
// System.out.println(service.hmDistance(content, content2));
}
}
更多阅读:【应用算法】信息流-推荐系统的去重策略
5. 计划任务
ScheduledTasks:
package com.md.demo.task;
import org.springframework.scheduling.annotation.Scheduled;
import org.springframework.stereotype.Component;
import com.md.demo.crawler.test.MyPageProcessor;
import lombok.extern.slf4j.Slf4j;
import us.codecraft.webmagic.Spider;
@Component
@Slf4j
public class ScheduledTasks {
/**
* 每30秒执行一次
*/
@Scheduled(initialDelay = 5000, fixedDelay = 30000)
public void httTaskOfWechatPay() {
log.info("------------------------------------------------");
log.info("============爬虫数据任务,start===================");
// TODO 在这里,你可以把爬虫做成执行计划任务,或者动态执行计划(通过db配置,或quartz框架,或XXL-job任务调度计划框架)
log.info("开始爬虫数据...");
log.info("处理处理...可以入库db,或存入es中");
// 爬今日头条/热点数据url
Spider.create(new MyPageProcessor()).addUrl(
"https://m.toutiao.com/list/?tag=news_hot&ac=wap&count=20&format=json_raw&as=A1551E75BC4CF9C&cp=5E5C3CEFB9DCAE1&max_behot_time=1583123351&_signature=CXZIuwAAVy.txcPhjSEcTwl2SK&i=1583123351")
.thread(1).run();
log.info("爬虫结束...done");
log.info("============爬虫数据任务,end===================");
log.info("------------------------------------------------");
}
}
注:可以改写成多线程模式,并发抓取多个tag分类的新闻数据,但频率不要很高,不然容易命中爬虫IP反作弊(可以加上ip代理)
6. 启动类
Application:
package com.md.demo;
import org.springframework.boot.SpringApplication;
import org.springframework.boot.autoconfigure.SpringBootApplication;
import org.springframework.context.annotation.Bean;
import org.springframework.scheduling.annotation.EnableScheduling;
import org.springframework.web.cors.CorsConfiguration;
import org.springframework.web.cors.UrlBasedCorsConfigurationSource;
import org.springframework.web.filter.CorsFilter;
/**
* 程序主入口
*
* @author Minbo
*
*/
@SpringBootApplication
@EnableScheduling
public class Application {
public static void main(String[] args) {
SpringApplication.run(Application.class, args);
}
/**
* 开启过滤器功能
*
* @return
*/
private CorsConfiguration buildConfig() {
CorsConfiguration corsConfiguration = new CorsConfiguration();
corsConfiguration.addAllowedOrigin("*");
corsConfiguration.addAllowedHeader("*");
corsConfiguration.addAllowedMethod("*");
return corsConfiguration;
}
/**
* 跨域过滤器
*
* @return
*/
@Bean
public CorsFilter corsFilter() {
UrlBasedCorsConfigurationSource source = new UrlBasedCorsConfigurationSource();
source.registerCorsConfiguration("/**", buildConfig());
return new CorsFilter(source);
}
}
完整源码下载
下一章教程
SpringBoot从入门到精通教程(三十二)- MybatisPlus框架动态数据源用法(支持多个DB,动态切换数据源)
该系列教程
我的专栏
至此,全部介绍就结束了
-------------------------------
-------------------------------
关于我(个人域名)
期望和大家一起学习,一起成长,共勉,O(∩_∩)O谢谢
欢迎交流问题,可加个人QQ 469580884,
或者,加我的群号 751925591,一起探讨交流问题
不讲虚的,只做实干家
Talk is cheap,show me the code