Java网络爬虫基于webMagic

最新推荐文章于 2024-05-20 22:06:37 发布

yao不ke及

最新推荐文章于 2024-05-20 22:06:37 发布

阅读量239

点赞数

分类专栏： java架构之路

java架构之路专栏收录该内容

23 篇文章 0 订阅

订阅专栏

说到爬虫呢当然是python最适合干的事但是java呢基于这个庞大成熟的生态圈，也有一些不错的爬虫框架可以在实际项目中使用的。
webMagic就是今天的主角它在github上的start数量达到了近7000 很了不起了并且这个是我们国人开发的哦。
简单介绍下吧：
webmagic是一个开源的Java垂直爬虫框架，目标是简化爬虫的开发流程，让开发者专注于逻辑功能的开发
项目结构
webmagic主要包括两个包：
webmagic-core
webmagic核心部分，只包含爬虫基本模块和基本抽取器。webmagic-core的目标是成为网页爬虫的一个教科书般的实现。
webmagic-extension
webmagic的扩展模块，提供一些更方便的编写爬虫的工具。包括注解格式定义爬虫、JSON、分布式等支持。
webmagic还包含两个可用的扩展包，因为这两个包都依赖了比较重量级的工具，所以从主要包中抽离出来，这些包需要下载源码后自己编译：
webmagic-saxon
webmagic与Saxon结合的模块。Saxon是一个XPath、XSLT的解析工具，webmagic依赖Saxon来进行XPath2.0语法解析支持。
webmagic-selenium
webmagic与Selenium结合的模块。Selenium是一个模拟浏览器进行页面渲染的工具，webmagic依赖Selenium进行动态页面的抓取。
在项目中，你可以根据需要依赖不同的包。
详细介绍看这里这里写链接内容文档很详细。
看看它的架构图吧：

看看我们的实例代码：

package com.lq.pc.webmagic;

import lombok.extern.slf4j.Slf4j;
import org.springframework.util.CollectionUtils;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.pipeline.ConsolePipeline;
import us.codecraft.webmagic.processor.PageProcessor;
import us.codecraft.webmagic.selector.Selectable;

import java.util.*;

/**
* 爬取慕课网全部免费视频信息（这里是主要的视频url 和标题信息）
*/
@Slf4j
public class MukeProcessor implements PageProcessor {
//保存信息
private static HashMap<String, List<String>> map = new HashMap<>();
private static final String START_URL = "^https://www.imooc.com/course/list$";
private static final String START_URL2 = "https://www.imooc.com/course/list";
private static final String DETAIL = "https://www.imooc.com/learn/\\d{1,8}";
private static final String NEXT_PAGE = "^https://www.imooc.com/course/list\\?page=\\d*$";
private static int count = 0;
private static Spider spider = Spider.create(new MukeProcessor());
private String keyTitles = "titles";
private String keyUrls = "keyUrls";
private Site site = Site.me()
.setDomain("www.baidu.com")
.setSleepTime(1131)
.setCharset("utf-8")
.setRetrySleepTime(2)
.setTimeOut(3000)
.setUserAgent(
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_2) AppleWebKit/537.31 (KHTML, like Gecko) Chrome/26.0.1410.65 Safari/537.31");

@Override
public void process(Page page) {
log.info("the get url is {}", page.getUrl().toString());
if (page.getUrl().regex(START_URL).match() || page.getUrl().regex(NEXT_PAGE).match()) {
List<String> list = page.getHtml().xpath("*[@id=\"main\"]/div[2]/div[2]/div[1]/div").links().all();
String next = page.getHtml().xpath("*[@id=\"main\"]/div[2]/div[2]/div[2]/a[8]").links().toString();
list.add(next);
page.addTargetRequests(list);
} else if (page.getUrl().regex(DETAIL).match()) {
List<String> list = page.getHtml().xpath("*[@id=\"main\"]/div[3]/div[1]/div[1]/div[2]/div/ul/li/a").links().all();
List<String> titles = page.getHtml().xpath("*[@id=\"main\"]/div[3]/div[1]/div[1]/div[2]/div/ul/li/a/text()").all();
map.put(keyTitles + count, titles);
map.put(keyUrls + count, list);
} else {
}
count++;
}

@Override
public Site getSite() {
return site;
}

public static void main(String[] args) {
long start = System.currentTimeMillis();
log.info("spider is start now !!!");

spider
.thread(10).addUrl(START_URL2)
.run();
long end = System.currentTimeMillis();
log.info("spider is end now !!!");
log.info("the under is result");
Set<Map.Entry<String, List<String>>> entries = map.entrySet();
log.info("###########################################");
for (Map.Entry<String, List<String>> entry : entries) {
String key = entry.getKey();
List<String> values = entry.getValue();
values.forEach(s -> {
log.info("the ke is {},the value is {}", key, s);
});
log.info("----------------------------------");
}
log.info("###########################################");
log.info("the count is {}", count);
log.info("cost time is :"+(end-start)/1000+"s");

}
}
是不是很方便呢，可以直接运行的这段代码。
这个框架也有一些缺点
1 没支持动态ip代理你的自己去实现
2 没支持随机时间访问
3 当爬取大量的数据时我们就会产生大量的url 这这个框架的去重默认使用hashset的
数据量不大的时候是可以接受的，但是一旦数据量达到千万条的时候，估计就要报OOM了
建议：布隆过滤器
---------------------
作者：凉白开00
来源：CSDN
原文：https://blog.csdn.net/qq_38844040/article/details/82354115
版权声明：本文为博主原创文章，转载请附上博文链接！

yao不ke及

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Java网络爬虫基于webMagic

说到爬虫呢当然是python最适合干的事但是java呢基于这个庞大成熟的生态圈，也有一些不错的爬虫框架可以在实际项目中使用的。webMagic就是今天的主角它在github上的start数量达到了近7000 很了不起了并且这个是我们国人开发的哦。简单介绍下吧：webmagic是一个开源的Java垂直爬虫框架，目标是简化爬虫的开发流程，让开发者专注于逻辑功能的开发项目结构...
复制链接

扫一扫