基于WebMagic写的一个csdn博客小爬虫

最新推荐文章于 2025-09-16 00:35:07 发布

原创

最新推荐文章于 2025-09-16 00:35:07 发布 · 3.1w 阅读

40 ·

CC 4.0 BY-SA版权

文章标签：

#webmagic #爬虫 #java

最近有点无聊，想研究一下爬虫，说到爬虫，很多人第一时间想到的是python。但是这次我选择了室友@antgan推荐的java爬虫框架WebMagic。该框架容易上手，可定制可扩展，非常适合想用java做爬虫的小伙伴们。先看一下官方教程，里面写得很详细，也有不少参考案例。

暂时还想不到有什么数据值得爬取，先拿csdn博客来练练手。
小爬虫能抓取指定用户的所有文章的关键信息，包括文章id，标题，标签，分类，阅读人数，评论人数，是否原创。并且把数据保存到数据库中。

数据库表的设计及sql

数据库表的设计

CREATE TABLE `csdnblog` (
  `key` int(11) unsigned NOT NULL AUTO_INCREMENT,
  `id` int(11) unsigned NOT NULL,
  `title` varchar(255) NOT NULL,
  `date` varchar(16) DEFAULT NULL,
  `tags` varchar(255) DEFAULT NULL,
  `category` varchar(255) DEFAULT NULL,
  `view` int(11) unsigned DEFAULT NULL,
  `comments` int(11) unsigned DEFAULT NULL,
  `copyright` int(1) unsigned DEFAULT NULL,
  PRIMARY KEY (`key`)
) ENGINE=InnoDB AUTO_INCREMENT=0 DEFAULT CHARSET=utf8;

Processor是爬虫逻辑，程序的核心

package csdnblog;

import java.util.List;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;

/**
 * CSDN博客爬虫
 * 
 * @describe 可以爬取指定用户的csdn博客所有文章，并保存到数据库中。
 * @date 2016-4-30
 * 
 * @author steven
 * @csdn qq598535550
 * @website lyf.soecode.com
 */
public class CsdnBlogPageProcessor implements PageProcessor {
   
   

	private static String username = "qq598535550";// 设置csdn用户名
	private static int size = 0;// 共抓取到的文章数量

	// 抓取网站的相关配置，包括：编码、抓取间隔、重试次数等
	private Site site = Site.me().setRetryTimes(3).setSleepTime(1000);

	@Override
	public Site getSite() {
   
   
		return site;
	}

	@Override
	// process是定制爬虫逻辑的核心接口，在这里编写抽取逻辑
	public void process(Page page) {
   
   
		// 列表页
		if (!page.getUrl().regex("http://blog\\.csdn\\.net/" + username + "/article/details/\\d+").match()) {
   
   
			// 添加所有文章页
			page.addTargetRequests(page.getHtml().xpath("//div[@id='article_list']").links()// 限定文章列表获取区域
					.regex("/" + username + "/article/details/\\d+")
					.replace("/" + username + "/", "http://blog.csdn.net/" + username + "/")// 巧用替换给把相对url转换成绝对url
					.all());
			// 添加其他列表页
			page.addTargetRequests(page.getHtml().xpath("//div[@id='papelist']").links()// 限定其他列表页获取区域
					.regex("/" + username + "/article/list/\\d+")
					.replace("/" + userna

最低0.47元/天解锁文章

22 条评论

西瓜丢了个芝麻 2020.05.08
运行结果是：【爬虫结束】共抓取0篇文章，耗时约3秒，已保存到数据库，请查收！不太会这个，望老哥指点一下。

雨露天泽 2019.09.18
我去试试

PromiseXuu 2017.12.11
12-11 14:24:17[ERROR]process request Request{url='http://blog.csdn.net/qq598535550/article/details/40391583', method='null', extras={statusCode=200}, priority=0} error java.lang.NumberFormatException: null

PromiseXuu 2017.12.11
博主，为啥我用的你的代码，报错了

Nofkop 2017.11.30
博主你好，我用你的代码去爬文章的时候，只能爬到文章ID，其它都为null，代码没有变过，请问是什么原因？
- 千与千寻丶回复Dondon? 2018.09.14
  [reply]Funn1k[/reply] 因为csdn程序员把标签改掉了正则匹配不到你自己对着网页改改就好了
- Dondon?回复Nofkop 2018.01.23
  [reply]Nofkop[/reply] 我也是这样,只能得到url的值别的都是null,拟解决了吗?

qq_38551677 2017.04.27
做任务

Fly_Rush 2017.03.28
你好，我看了你的文章后，自己对程序小修改了几个地方，可以重新写一篇文章发在我的博客吗？当然，会注明原作者，也就是博主的文章地址。
- 李奕锋回复Fly_Rush 2017.03.28
  [reply]RushChu[/reply] 欢迎引用，互相学习！

Mliak 2017.02.09
lz 问你一下，你的数据库链接后，关闭在哪里。我没有看到有关闭数据库。不用关是不是让数据库一直在写入的状态，但是最后还是要关的
- 李奕锋回复Mliak 2017.02.13
  [reply]qq_34291777[/reply] 是的，需要关闭连接资源，写在finally块里，很认真哦~

fgjhfgjfghf34535 2016.09.30
请问怎么翻页再爬取翻页后的每篇文章信息
- fgjhfgjfghf34535回复fgjhfgjfghf34535 2016.10.08
  [reply]lc375660910[/reply] 啊。明白了。谢谢这头像看着好别扭 - -
- 李奕锋回复fgjhfgjfghf34535 2016.10.03
  [reply]lc375660910[/reply] 关于怎么翻页再爬取翻页后的每篇文章信息，案例中的这行是核心代码 // 添加其他列表页 page.addTargetRequests(page.getHtml().xpath("//div[@id='papelist']").links()// 限定其他列表页获取区域 .regex("/" + username + "/article/list/\\d+") .replace("/" + username + "/", "http://blog.csdn.net/" + username + "/")// 巧用替换给把相对url转换成绝对url .all());

李奕锋 2016.08.19
我的博客最近换了新皮肤，所以html结构发生了变化，上面DEMO的爬取规则中xpath语法需要进行小改动，就当作是作业吧，以前的旧皮肤都可以爬取~
- 21天in回复李奕锋 2018.06.20
  [reply]qq598535550[/reply] 老哥，你的小改动会不会引起 javax.net.ssl.SSLHandshakeException: Could not generate secret证书错误呢。。。是的我看到你那个ID 在页面上面搜索不到了
- 21天in回复李奕锋 2018.06.20
  [reply]qq598535550[/reply] 老哥，你的小改动会不会引起 javax.net.ssl.SSLHandshakeException: Could not generate secret证书错误呢。。。是的我看到你那个ID 在页面上面搜索不到了
- 飞天熊回复李奕锋 2018.03.27
  [reply]qq598535550[/reply] 为什么没有作用？