编写基本的爬虫1

在WebMagic里,实现一个基本的爬虫只需要编写一个类,实现PageProcessor接口即可。这个类基本上包含了抓取一个网站,你需要写的所有代码。

同时这部分还会介绍如何使用WebMagic的抽取API,以及最常见的抓取结果保存的问题

实现PageProcessor

这部分我们通过一个简单例子来介绍PageProcessor的编写方式,我将PageProcessor的定制分为二个部分,分别是爬虫的配置和页面元素的抽取。爬取的网址为CSDN博客文章的标题URL链接为:https://blog.csdn.net/xye1230/article/details/108348669

在这里插入图片描述

环境说明

1、JDK1.8
2、IDEA2019.2

示例代码

/**
 * @version V1.0
 * @description:
 * @author: old_cai_niao
 * @date: 2020/9/3 16:59
 */
public class CsdnPageProcessor implements PageProcessor {

    /**
     * 部分一:抓取网站的相关配置,包括编码、抓取间隔、重试次数等
      */
    private Site site = Site.me().setRetryTimes(3).setSleepTime(0);

    @Override
    public void process(Page page) {
        //部分二:定义如何抽取页面信息,并保存下来
        String title = page.getHtml().xpath("//*[@id='articleContentId']/text()").toString();
        page.putField("title",title);
    }

    @Override
    public Site getSite() {
        return site;
    }

    public static void main(String[] args) {

        Spider.create(new CsdnPageProcessor()).addUrl("https://blog.csdn.net/xye1230/article/details/108348669").thread(5).run();

    }
}

运行结果

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值