基于java的爬虫框架webmagic基本使用

最新推荐文章于 2024-08-27 15:47:59 发布

卖柴火的小伙子

最新推荐文章于 2024-08-27 15:47:59 发布

阅读量1.5k

点赞数 1

文章标签：爬虫 webmagic

本文链接：https://blog.csdn.net/weixin_43401380/article/details/129122759

版权

本文介绍了如何在Java项目中使用WebMagic库进行网页数据爬取。主要依赖包括webmagic-core和webmagic-extension，详细步骤包括从GitHub获取源码、本地Maven安装、XPath语法用于内容提取，并提供了一个获取昵称的代码示例。

摘要由CSDN通过智能技术生成

简单记录一下java项目实现网页爬取数据的基本使用.

需要引入的依赖

<dependency>
      <groupId>us.codecraft</groupId>
      <artifactId>webmagic-core</artifactId>
      <version>0.7.3</version>
    </dependency>
    <dependency>
      <groupId>us.codecraft</groupId>
      <artifactId>webmagic-extension</artifactId>
      <version>0.7.3</version>
    </dependency>

如果引入项目失败可以到GitHub去下载master分支的最新源码,将项目导入到idea之后找到父工程webmagic-parent进行install,然后将target中jar:

webmagic-core-0.8.0.jar、
webmagic-extension-0.8.0.jar

打包到本地仓库即可.maven打包到本地方式可以参考如下:

mvn install:install-file -Dfile="D:\storage\maven_repository\com\us\codecraft\webmagic-core-0.8.0.jar" -DgroupId=us.codecraft -DartifactId=webmagic-core -Dversion=0.8.0 -Dpackaging=jar
	mvn install:install-file -Dfile="D:\storage\maven_repository\com\us\codecraft\webmagic-extension-0.8.0.jar" -DgroupId=us.codecraft -DartifactId=webmagic-extension -Dversion=0.8.0 -Dpackaging=jar

jar存储目录:D:\storage\maven_repository\us\codecraft\0.8.0,然后从该目录下执行上面命令.
D:\storage\maven_repository\com\us\codecraft为jar安装目录.

WebMagic使用说明:http://webmagic.io/docs/zh/posts/ch1-overview/

常用获取标签内容以及属性方法参考下面:

html

<a href='www.some.com'><span>hello </span>world</a>

#获取a标签下的文本

xpath("//a/text()") # world

#获取a标签以及子标签中的内容

xpath("//a//text()") # hello world

#获取a标签中的连接

xpath("//a/@href") # www.some.com

即获取标签属性值 （位置/@属性）

更多xpath使用说明:https://www.runoob.com/xpath/xpath-examples.html

以下是获取网页上昵称的demo:

public class MyPageProcessor implements PageProcessor {

    private Site site = Site.me().setRetryTimes(3).setSleepTime(100);

	// 存储获取的昵称
    private static List<String> nickNameList=new ArrayList<>();

    @Override
    public void process(Page page) {
        //对抓取到的页面进行处理
        page.putField("value",page.getHtml().xpath("//p//text()").all());
        int a=0;
        // 组装数据
        nickNameList.addAll(Collection.class.cast(page.getResultItems().getAll().get("value")));

    }

    @Override
    public Site getSite() {
        return site;
    }

    public static void main(String[] args) {
        //创建爬虫
        Spider.create(new MyPageProcessor())            //将创建好的PageProcessor页面处理器交给Spider
                .addUrl("https://www.qiwangming.com/wm/haoting/4583.html")   //输入url
                //.addPipeline(new FilePipeline())          //设置结果 保存到文件
//                .addPipeline(new ConsolePipeline())         //设置结果 控制台输出
                //.addPipeline(new JsonFilePipeline())        //设置结果 以Json格式输出
                //当没有设置结果输出时 默认控制台输出
//                .thread(5)                  //设置5个线程同时执行
                .run();                   //启动爬虫
        System.out.println("输出内容:"+MyPageProcessor.nickNameList);
    }
}

输出内容:

输出内容:[ 漫步云中月,  关于你,  触摸的星光,  踏雪无痕,  但愿,  藏在云里的喜欢,  美梦收藏家,  趁月色还在,  倾听寂寞,  独往归途,  扬花落满肩,  人间烟火,  ,  微云淡月,  山月记,  追逐我的明天。,  染指流年,  且听且行,  簡單陪絆,  你如温阳,  梦里七彩虹,  闻风丧破胆,  初雪未霁,  偏于谁,  暖光的惆怅,  你眼里的雾,  恰上心头,  长得帅会喊麦,  初夏的雨,  望断归来路,  终于说出口,  故事讲完,  云淡风轻,  怀抱清风,  落梅香带雪,  泪染裳,  佯装执着,  深爱不腻,  月亮魔法,  笑眼迷人,  顾北清歌寒,  难能心动,  世俗眼光,  满是欢喜,  月亮遮住脸,  莫洛曾过往,  难得一生,  往复随安,  笑弄清风,  枯守一座城,  南风向北,  草莓仙,  一池喜欢,  起舞弄影,  寒橘,  沧桑为饮,  雨下的芭蕉,  绝世的容颜,  从心动到古稀,  时光旅行者,  风中的歌声,  凡尘一梦,  繁星画作泥尘,  眉黛浅,  旧城的伤,  掌握梦想,  云深不知处,  证明给你看,  笔尖微凉,  一纸水与青,  望一片星辰,  北巷长歌悠,  饮惯烈酒,  泪水中成长,  遙遙無歸期,  灵感集市,  等风醒来,  山水几相逢,  如初不遇,  心动甜甜圈,  山后别相逢,  北葵向暖,  与我何干,  你不好看,  笑中带伤,  清风徐来,  光辉时刻,  稳做枕边人,  你是柔风,  随风远走,  煙雨霓裳,  孤魂伴野鬼,  澄澈的眼,  绿杨堤黄鸟,  迷上书甜,  恬淡春风,  许你春夏,  余情已逝,  人间惊鸿宴,  碎了星光一地,  椰果味的牛奶,  湛蓝星空,  躺在你的梨涡里,  一曲墨白,  光辉终结,  追尾的猫,   |  |  ,  copyright © 2018-2020   ]