java spring+mybatis整合实现爬虫之《今日头条》搞笑动态图片爬取(详细)
原文地址原博客地址
先上效果图
抓取的动态图:
数据库:
一.此爬虫介绍
今日头条本身就是做爬虫的,爬取各大网站的图片文字信息,再自己整合后推送给用户,特别是里面的动态图片,很有意思。在网上搜了搜,大多都是用Python来写的,本人是学习javaweb这块的,对正则表达式也不是很熟悉,就想着能不能换个我熟悉的方式来写。此爬虫使用spring+mybatis框架整合实现,使用mysql数据库保存爬取的数据,用jsoup来操作HTML的标签节点(完美避开正则表达式),获取文章中动态图片的链接,通过响应头中“Content-Type”的值来判断图片的格式,再将图片保存在本地。当然也可以爬取里面的文字,比如一些搞笑的黄段子,在此基础上稍加改动就可以实现,此爬虫只是提供一个入门的思路,更多好玩的爬虫玩法还待大家去开发,哈哈。
二.技术选型
- 核心语言:java;
- 核心框架:spring;
- 持久层框架:mybatis;
- 数据库连接池:Alibaba Drui;
- 日志管理:Log4j;
- jar包管理:maven; 。。。。
三.找规律,划重点
打开头条首页,找到点击搞笑模块,点击F12,下滚后加载下一页,发现是通过ajax请求api来获取的数据,如下图:
这是响应的json数据,里面的参数和值顾名思义大家都懂得。
是ajax访问就好解决了,通过我百度谷歌各种研究后发现,ajax请求的前三个参数是不变的,改变category参数是请求不同的模块,本列子是请求的搞笑模块所以值为funny,max_behot_time和max_behot_time_tmp这两个参数值是时间戳,首次请求是0,之后的值是响应json数据里面的next中的值。as和cp值是通过一段js生成的,其实就是一个加密了的时间戳而已。js代码后面会贴。
四.开始搭框架撸代码
项目搭建后之后为下图所示的文件结构,不懂得自行谷歌 哈哈
不多说直接上核心代码了:
public class TouTiaoCrawler {
// 搞笑板块的api地址
public static final String FUNNY = "http://www.toutiao.com/api/pc/feed/?utm_source=toutiao&widen=1";
// 头条首页地址
public static final String TOUTIAO = "http://www.toutiao.com";
// 使用"spring.xml"和"spring-mybatis.xml"这两个配置文件创建Spring上下文
static ApplicationContext ac = new ClassPathXmlApplicationContext(
"spring-mybatis.xml");
// 从Spring容器中根据bean的id取出我们要使用的funnyMapper对象
static FunnyMapper funnyMapper = (FunnyMapper) ac.getBean("funnyMapper");
// 接口访问次数
private static int refreshCount = 0;
// 时间戳
private static long time = 0;
public static void main(String[] args) {
System.out.println("----------开始干活!-----------------");
while (true) {
crawler(time);
}
}
public static void crawler(long hottime) {
// 传入时间戳,会获取这个时间戳的内容
refreshCount++;
System.out.println("----------第" + refreshCount + "次刷新------返回的请求时间为:"
+ hottime + "----------");
String url = FUNNY + "&max_behot_time=" + hottime
+ "&max_behot_time_tmp=" + hottime;
JSONObject param = getUrlParam(); // 获取用js代码得到的as和cp的值
// 定义接口访问的模块
/*
* __all__ : 推荐 news_hot: 热点 funny:搞笑
*/
String module = "funny";
url += "&as=" + param.get("as") + "&cp=" + param.get("cp")
+ "&category=" + module;
JSONObject json = null;
try {
json = getReturnJson(url);// 获取json串
} catch (Exception e) {
e.printStackTrace();
}
if (json != null) {
time = json.getJSONObject("next").getLongValue("max_behot_time");
JSONArray data = json.getJSONArray("data");
for (int i = 0; i < data.size(); i++) {
try {
JSONObject obj = (JSONObject) data.get(i);
// 判断这条文章是否已经爬过
if (funnyMapper.selectByGroupId((String) obj
.get("group_id")) != null) {
System.out
.println("----------此文章已经爬过啦!-----------------");
continue;
}