java爬虫题库_从零开始学习基于WebMagic的Java爬虫（二）：爬取CSDN博客

最新推荐文章于 2023-01-31 16:04:44 发布

寒枫不抵你刹那温

最新推荐文章于 2023-01-31 16:04:44 发布

阅读量116

点赞数

文章标签： java爬虫题库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_31493101/article/details/114139654

版权

本文介绍了如何使用WebMagic框架编写Java爬虫，以爬取CSDN博客为例，讲解了PageProcessor的核心逻辑，包括设置爬取配置、抽取页面信息，并演示了如何将数据保存为JSON文件。同时，文中提供了数据库存储数据的示例代码。

摘要由CSDN通过智能技术生成

由于案例就是爬取的CSDN博客，分析了一下各大博客网站，发现CSDN比较适合入门，所以我也选择CSDN作为开始，写我的第一个爬虫程序。

首先来介绍爬虫的核心爬取逻辑，即PageProcessor，我们每写一个爬虫，都必须编写一个针对待爬取网站的爬取逻辑，该类要实现PageProcessor接口。

import us.codecraft.webmagic.Page;

import us.codecraft.webmagic.Site;

import us.codecraft.webmagic.Spider;

import us.codecraft.webmagic.pipeline.JsonFilePipeline;

import us.codecraft.webmagic.processor.PageProcessor;

import java.text.SimpleDateFormat;

import java.util.Date;

import java.util.List;

import java.util.Scanner;

/**

* Created by Rush on 2017/3/27.

*/

public class CsdnBlogPageProcessor implements PageProcessor {

// 部分一：抓取网站的相关配置，包括编码、抓取间隔、重试次数等

private Site site = Site.me().setRetryTimes(3).setSleepTime(1000)

.setUserAgent(

"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_2) AppleWebKit/537.31 (KHTML, like Gecko) Chrome/26.0.1410.65 Safari/537.31");

// .setUserAgent("Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36");

private static String username; // 设置的Csdn用户名

private static int size = 0; // 共抓取到的文章数量

// process是定制爬虫逻辑的核心接口，在这里编写抽取逻辑

public void process(Page page) {

// 部分二：定义如何抽取页面信息，并保存下来

// 如果匹配成功，说明是文章页

if(!page.getUrl().regex("http://blog\\.csdn\\.net/" + username + "/article/details/\\d+").match()){

// 添加所有文章页

page.addTargetRequests(page.getHtml().xpath("//div[@id='article_list']").links()

.regex("/" + username + "/article/details/\\d+")

.replace("/" + username + "/", "http://blog.csdn.net/" + username + "/")

.all());

// 添加其他列表页

page.addTargetRequests(page.getHtml().xpath("//div[@id='papelist']").links() // 限定其他列表页获取区域

.regex("/" + username + "/article/list/\\d+")

.replace("/" + username + "/", "http://blog.csdn.net/" + username + "/")// 巧用替换给把相对url转换成绝对url

.all());

} else {

++size;

page.putField("numbers", page.getUrl().regex("\\d+$").get());

page.putField("authors", username);

page.putField("titles", page.getHtml()

.xpath("//div[@class='article_title']//h1//span[@class='link_title']/a/text()").get());

page.putField("dates", page.getHtml()

.xpath("//div

最低0.47元/天解锁文章

寒枫不抵你刹那温

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
java爬虫题库_从零开始学习基于WebMagic的Java爬虫（二）：爬取CSDN博客

由于案例就是爬取的CSDN博客，分析了一下各大博客网站，发现CSDN比较适合入门，所以我也选择CSDN作为开始，写我的第一个爬虫程序。首先来介绍爬虫的核心爬取逻辑，即PageProcessor，我们每写一个爬虫，都必须编写一个针对待爬取网站的爬取逻辑，该类要实现PageProcessor接口。import us.codecraft.webmagic.Page;import us.codecraft...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。