编写基本的爬虫1

最新推荐文章于 2023-06-10 19:58:25 发布

old_cai_niao

最新推荐文章于 2023-06-10 19:58:25 发布

阅读量131

点赞数

分类专栏：爬虫系列

本文链接：https://blog.csdn.net/old_cai_niao/article/details/108387504

版权

爬虫系列专栏收录该内容

4 篇文章 0 订阅

订阅专栏

编写基本的爬虫1

实现PageProcessor

在WebMagic里，实现一个基本的爬虫只需要编写一个类，实现PageProcessor接口即可。这个类基本上包含了抓取一个网站，你需要写的所有代码。

同时这部分还会介绍如何使用WebMagic的抽取API，以及最常见的抓取结果保存的问题

实现PageProcessor

这部分我们通过一个简单例子来介绍PageProcessor的编写方式，我将PageProcessor的定制分为二个部分，分别是爬虫的配置和页面元素的抽取。爬取的网址为CSDN博客文章的标题URL链接为：https://blog.csdn.net/xye1230/article/details/108348669

在这里插入图片描述

环境说明

1、JDK1.8
2、IDEA2019.2

示例代码

/**
 * @version V1.0
 * @description:
 * @author: old_cai_niao
 * @date: 2020/9/3 16:59
 */
public class CsdnPageProcessor implements PageProcessor {

    /**
     * 部分一：抓取网站的相关配置，包括编码、抓取间隔、重试次数等
      */
    private Site site = Site.me().setRetryTimes(3).setSleepTime(0);

    @Override
    public void process(Page page) {
        //部分二：定义如何抽取页面信息，并保存下来
        String title = page.getHtml().xpath("//*[@id='articleContentId']/text()").toString();
        page.putField("title",title);
    }

    @Override
    public Site getSite() {
        return site;
    }

    public static void main(String[] args) {

        Spider.create(new CsdnPageProcessor()).addUrl("https://blog.csdn.net/xye1230/article/details/108348669").thread(5).run();

    }
}

运行结果

在这里插入图片描述

old_cai_niao

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
编写基本的爬虫1

编写基本的爬虫1实现PageProcessor环境说明示例代码运行结果在WebMagic里，实现一个基本的爬虫只需要编写一个类，实现PageProcessor接口即可。这个类基本上包含了抓取一个网站，你需要写的所有代码。同时这部分还会介绍如何使用WebMagic的抽取API，以及最常见的抓取结果保存的问题实现PageProcessor这部分我们通过一个简单例子来介绍PageProcessor的编写方式，我将PageProcessor的定制分为二个部分，分别是爬虫的配置和页面元素的抽取。爬取的网址为C
复制链接

扫一扫

专栏目录