Java网络爬虫基于webMagic

说到爬虫呢 当然是python最适合干的事 但是java呢 基于这个庞大成熟的生态圈,也有一些不错的爬虫框架可以在实际项目中使用的。 
webMagic就是今天的主角 它在github上的start数量达到了近7000 很了不起了 并且这个是我们国人开发的哦。 
简单介绍下吧: 
webmagic是一个开源的Java垂直爬虫框架,目标是简化爬虫的开发流程,让开发者专注于逻辑功能的开发 
项目结构 
webmagic主要包括两个包: 
webmagic-core 
webmagic核心部分,只包含爬虫基本模块和基本抽取器。webmagic-core的目标是成为网页爬虫的一个教科书般的实现。 
webmagic-extension 
webmagic的扩展模块,提供一些更方便的编写爬虫的工具。包括注解格式定义爬虫、JSON、分布式等支持。 
webmagic还包含两个可用的扩展包,因为这两个包都依赖了比较重量级的工具,所以从主要包中抽离出来,这些包需要下载源码后自己编译: 
webmagic-saxon 
webmagic与Saxon结合的模块。Saxon是一个XPath、XSLT的解析工具,webmagic依赖Saxon来进行XPath2.0语法解析支持。 
webmagic-selenium 
webmagic与Selenium结合的模块。Selenium是一个模拟浏览器进行页面渲染的工具,webmagic依赖Selenium进行动态页面的抓取。 
在项目中,你可以根据需要依赖不同的包。 
详细介绍看这里这里写链接内容 文档很详细。 
看看它的架构图吧: 


看看我们的实例代码:

package com.lq.pc.webmagic;

import lombok.extern.slf4j.Slf4j;
import org.springframework.util.CollectionUtils;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.pipeline.ConsolePipeline;
import us.codecraft.webmagic.processor.PageProcessor;
import us.codecraft.webmagic.selector.Selectable;

import java.util.*;

/**
 * 爬取慕课网全部免费视频信息(这里是主要的视频url 和标题信息)
 */
@Slf4j
public class MukeProcessor implements PageProcessor {
    //保存信息
    private static HashMap<String, List<String>> map = new HashMap<>();
    private static final String START_URL = "^https://www.imooc.com/course/list$";
    private static final String START_URL2 = "https://www.imooc.com/course/list";
    private static final String DETAIL = "https://www.imooc.com/learn/\\d{1,8}";
    private static final String NEXT_PAGE = "^https://www.imooc.com/course/list\\?page=\\d*$";
    private static int count = 0;
    private static Spider spider = Spider.create(new MukeProcessor());
    private String keyTitles = "titles";
    private String keyUrls = "keyUrls";
    private Site site = Site.me()
            .setDomain("www.baidu.com")
            .setSleepTime(1131)
            .setCharset("utf-8")
            .setRetrySleepTime(2)
            .setTimeOut(3000)
            .setUserAgent(
                    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_2) AppleWebKit/537.31 (KHTML, like Gecko) Chrome/26.0.1410.65 Safari/537.31");


    @Override
    public void process(Page page) {
        log.info("the  get  url  is  {}", page.getUrl().toString());
        if (page.getUrl().regex(START_URL).match() || page.getUrl().regex(NEXT_PAGE).match()) {
            List<String> list = page.getHtml().xpath("*[@id=\"main\"]/div[2]/div[2]/div[1]/div").links().all();
            String next = page.getHtml().xpath("*[@id=\"main\"]/div[2]/div[2]/div[2]/a[8]").links().toString();
            list.add(next);
            page.addTargetRequests(list);
        } else if (page.getUrl().regex(DETAIL).match()) {
            List<String> list = page.getHtml().xpath("*[@id=\"main\"]/div[3]/div[1]/div[1]/div[2]/div/ul/li/a").links().all();
            List<String> titles = page.getHtml().xpath("*[@id=\"main\"]/div[3]/div[1]/div[1]/div[2]/div/ul/li/a/text()").all();
            map.put(keyTitles + count, titles);
            map.put(keyUrls + count, list);
        } else {
        }
        count++;
    }

    @Override
    public Site getSite() {
        return site;
    }

    public static void main(String[] args) {
        long start = System.currentTimeMillis();
        log.info("spider  is  start  now !!!");

        spider
                .thread(10).addUrl(START_URL2)
                .run();
        long end = System.currentTimeMillis();
        log.info("spider  is  end  now !!!");
        log.info("the  under   is   result");
        Set<Map.Entry<String, List<String>>> entries = map.entrySet();
        log.info("###########################################");
        for (Map.Entry<String, List<String>> entry : entries) {
            String key = entry.getKey();
            List<String> values = entry.getValue();
            values.forEach(s -> {
                log.info("the ke is {},the value is {}", key, s);
            });
            log.info("----------------------------------");
        }
        log.info("###########################################");
        log.info("the  count  is  {}", count);
        log.info("cost  time  is :"+(end-start)/1000+"s");


    }
}
是不是很方便呢,可以直接运行的这段代码。 
这个框架也有一些缺点 
1 没支持动态ip代理 你的自己去实现 
2 没支持随机时间访问 
3 当爬取大量的数据时 我们就会产生大量的url 这这个框架的去重默认使用hashset的 
数据量不大的时候是可以接受的,但是一旦数据量达到千万条的时候,估计就要报OOM了 
建议: 布隆过滤器
--------------------- 
作者:凉白开00 
来源:CSDN 
原文:https://blog.csdn.net/qq_38844040/article/details/82354115 
版权声明:本文为博主原创文章,转载请附上博文链接!

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值