Java爬虫—WebMagic

最新推荐文章于 2024-09-18 07:45:00 发布

键舞者

最新推荐文章于 2024-09-18 07:45:00 发布

阅读量1.8k

点赞数

文章标签： java 爬虫 log4j Powered by 金山文档

本文链接：https://blog.csdn.net/qq_52655865/article/details/129092149

版权

WebMagic是一个Java爬虫框架，由下载器、页面处理器、调度器和管道四个组件构成。它使用HttpClient作为下载工具，Jsoup和Xsoup解析HTML。PageProcessor需用户自定义，用于解析页面和提取数据。Pipeline负责数据持久化，如保存到数据库。示例代码展示了如何配置和运行一个基础的WebMagic爬虫。

摘要由CSDN通过智能技术生成

一，WebMagic介绍

WebMagic企业开发，比HttpClient和JSoup更方便

一），WebMagic架构介绍

WebMagic有DownLoad，PageProcessor，Schedule，Pipeline四大组件，并有Spider将他们组织起来，这四大组件对应就是爬虫的下载，处理，管理，持久化等功能。

Spider将这几个组件串联起来，让他们可以相互交互，流程化执行，可以认为Spider是一个巨大的容器，他也是webMagic逻辑的核心

WebMagic框架：

1，DownLoad负责从互联网上下载页面交给PageProcessor处理，WebMagic使用Apache HttpClient作为下载工具。

2，PageProcessor负责解析页面，抽取有用数据，以及发现新的链接。WebMagic使用Jsoup作为解析HTML工具，并基于其开发了解析Xpath的Xsoup。

四个组件中，PageProcessor对于每个站点都不一样，需要使用者自行定义。

3，Schedule负责管理抓取的URL，以及一些去重工作。WebMagic默认提供了JDK的内存队列来管理URL，并用集合进行去重。也支持Redis的分布式管理。

4，Pipeline负责抽取结果的计算，持久化到文件，数据库等。WebMagic默认提供“输出到控制台”和保存到文件两种处理方案。

如果需要保存到数据库，则需要编写对应的Pipeline，对于一类需求，一般只需要编写一个Pipeline。

二），用于数据流转的对象

1，request

request是对URL地址的一层封装，一个request对应一个URL；

他是PageProcessor和DownLoad交互的载体，也是PageProdessor控制Download的唯一方式。

除了URL本身，还包含一盒key-value结构的完整字段extra，可以在extra中保存一些特殊的属性，然后在其他地方进行读取，以及完成不同的功能。

2，page

Page及使用Download下载的页面——可能是一个HTML，也可能是JSON或者其他文本。

Page是WebMagic抽取数据的核心对象，他提供了一些方法可供抽取、结果保存等。

3，ResuleItems

ResultItems相当于一个Map，他用于保存PageProcessor处理的结果，供Pipeline使用。他的API和Map类似，但有一个字段skip，若设置为true，则不会被Pipeline处理。

二，入门程序

添加打印日志配置文件

log4j.rootLogger=INFO,A1 

log4j.appender.A1=org.apache.log4j.ConsoleAppender
log4j.appender.A1.layout=org.apache.log4j.PatternLayout
log4j.appender.A1.layout.ConversionPattern=%-d{yyyy-MM-dd HH🇲🇲ss,SSS} [%t] [%c]-[%p] %m%n

引入WebMagic的依赖

<!--webMagic依赖-->
        <dependency>
            <groupId>us.codecraft</groupId>
            <artifactId>webmagic-core</artifactId>
            <version>0.7.4</version>
        </dependency>
        <dependency>
            <groupId>us.codecraft</groupId>
            <artifactId>webmagic-extension</artifactId>
            <version>0.7.4</version>
        </dependency>

public class JobProcessor implements PageProcessor {
    //page：解析的页面，由Spider容器处理。
    public void process(Page page) {
        //解析page，并将结果以key——value的形式保存在ResultItems中
        //page.getHtml():获取html，也就是dom文档
        //.css():selector选择器
        //"head > title":head的直接子标签
        //以css方式获取
        page.putField("title",page.getHtml().css("head > title"));

        //Xpath方式获取
        page.putField("div",page.getHtml().xpath("//div[@id=shortcut-2014]/div/ul/li/a"));
        //css方式获取
        page.putField("div1",page.getHtml().css("div#shortcut-2014 div.w ul.fr > li > a"));
        //正则表达式
        page.putField("div2",page.getHtml().css("div#shortcut-2014 div.w ul.fr > li > a").regex(".*你好.*").all());
    }

    private Site site = Site.me();
    public Site getSite() {
        return site;
    }

    public static void main(String[] args) {
        Spider.create(new JobProcessor())
                .addUrl("https://kuaibao.jd.com/")//添加需要爬取的网页url
                .run();//执行
        //不需要执行打印，不设置输入流的位置，WebMagic默认输出在控制台
    }
}

三，PageProcessor分析抽取页面元素

Xpath, 使用路径表达式来选取 XML 文档中的节点或节点集

CSS选择器 (同jquery选择器用法)

正则表达式, 一般用于获取url地址

WebMagic下Selectable抽取元素API

WebMagic处理结果的API

        page.putField("div3",page.getHtml().xpath("//div[@id=shortcut-2014]/div/ul/li/a").get());//在结果中抽取一条数据，默认第一条
        page.putField("div3",page.getHtml().xpath("//div[@id=shortcut-2014]/div/ul/li/a").toString());//在结果中抽取一条数据，默认第一条
        page.putField("div3",page.getHtml().xpath("//div[@id=shortcut-2014]/div/ul/li/a").all());//获取结果的全部数据

Schedule获取链接：page.addTargetRequest（）

        page.addTargetRequest(page.getHtml().xpath("//div[@id=shortcut-2014]/div/ul/li/a").links().get());//获取查询结果的第一条超链接
        page.putField("title",page.getHtml().css("head > title"));

四，Pipeline保存结果

WebMagic用于保存结果的组件叫做Pipeline，默认输出到控制是同一个内置的Pipeline——consolePipeline，如果想要输出到文件，只讲Pipeline换成FilePipeline就可以。

 public static void main(String[] args) {
        Spider.create(new JobProcessor())
                .addUrl("https://kuaibao.jd.com/")//添加需要爬取的网页url
                //不添加addPipeline则会将结果输出在控制台
                .addPipeline(new FilePipeline("C:\\Users\\admin\\Desktop\\result\\"))//将结果保存在文件中
                .thread(5)//设置多线程
                .run();//执行
        //不需要执行打印，不设置输入流的位置，WebMagic默认输出在控制台
    }

五，爬虫的配置、启动和终止

Sipder是爬虫启动的入口，我们需要在启动爬虫前使用一个pageProcessor创建一个Spider对象，然后使用run（）启动。

设置Spider组件都可以采用set方法进行设置

爬虫设置Site

Site.me()可以对爬虫进行一些配置，包括编码，抓取间隔，超时时间，重复次数等。

    private Site site = Site.me()
            .setCharset("utf8") //设置编码
            .setTimeOut(10 * 1000) //设置超时间
            .setRetryTimes(3) // 设置重复次数
            .setRetrySleepTime(3 * 1000); // 设置重试时间间隔
    public Site getSite() {
        return site;
    }