编写基本的爬虫1
在WebMagic里,实现一个基本的爬虫只需要编写一个类,实现PageProcessor接口即可。这个类基本上包含了抓取一个网站,你需要写的所有代码。
同时这部分还会介绍如何使用WebMagic的抽取API,以及最常见的抓取结果保存的问题
实现PageProcessor
这部分我们通过一个简单例子来介绍PageProcessor的编写方式,我将PageProcessor的定制分为二个部分,分别是爬虫的配置和页面元素的抽取。爬取的网址为CSDN博客文章的标题URL链接为:https://blog.csdn.net/xye1230/article/details/108348669
环境说明
1、JDK1.8
2、IDEA2019.2
示例代码
/**
* @version V1.0
* @description:
* @author: old_cai_niao
* @date: 2020/9/3 16:59
*/
public class CsdnPageProcessor implements PageProcessor {
/**
* 部分一:抓取网站的相关配置,包括编码、抓取间隔、重试次数等
*/
private Site site = Site.me().setRetryTimes(3).setSleepTime(0);
@Override
public void process(Page page) {
//部分二:定义如何抽取页面信息,并保存下来
String title = page.getHtml().xpath("//*[@id='articleContentId']/text()").toString();
page.putField("title",title);
}
@Override
public Site getSite() {
return site;
}
public static void main(String[] args) {
Spider.create(new CsdnPageProcessor()).addUrl("https://blog.csdn.net/xye1230/article/details/108348669").thread(5).run();
}
}