BatchCollector 自定义微批处理工具

需求

在处理大量数据的,希望每5000条保存一次Elasticsearch或者MongoDB。

处理方法
  1. BatchCollector实现
package com.oppo.ait.business.utils;

import com.google.common.base.Preconditions;

import java.util.ArrayList;
import java.util.Collections;
import java.util.List;
import java.util.Set;
import java.util.function.*;
import java.util.stream.Collector;

/**
 * 批量提交工具集
 *
 * @param <T>
 * @author 
 */
public class BatchCollector<T> implements Collector<T, List<T>, List<T>> {

	private final int batchSize;
	private final Consumer<List<T>> batchProcessor;

	public BatchCollector(int batchSize, Consumer<List<T>> batchProcessor) {
		Preconditions.checkNotNull(batchProcessor);
		Preconditions.checkArgument(batchSize > 0, "batchSize必须大于0");
		this.batchSize = batchSize;
		this.batchProcessor = batchProcessor;
	}

	@Override
	public Supplier<List<T>> supplier() {
		return ArrayList::new;
	}

	@Override
	public BiConsumer<List<T>, T> accumulator() {
		return (ts, t) -> {
			ts.add(t);
			if (ts.size() >= batchSize) {
				batchProcessor.accept(ts);
				ts.clear();
			}
		};
	}

	@Override
	public BinaryOperator<List<T>> combiner() {
		return (ts, ots) -> {
			if (ts.size() > 0) {
				batchProcessor.accept(ts);
			}
			if (ots.size() > 0) {
				batchProcessor.accept(ots);
			}
			return Collections.emptyList();
		};
	}

	@Override
	public Function<List<T>, List<T>> finisher() {
		return ts -> {
			if (ts.size() > 0) {
				batchProcessor.accept(ts);
			}
			return Collections.emptyList();
		};
	}

	@Override
	public Set<Characteristics> characteristics() {
		return Collections.emptySet();
	}
}

  1. 代码使用
 /**
   * 需要写入的stream数据到HDFS
   *
   * @param dataType 该数据的类型,决定了如何组织最终的字符串为HDFS的每一行,详见 {@link HdfsWriter#getFunctionChain}
   */
  public void writeToHdfs(DataType dataType, Stream<BotAnnotationData> stream) {
    //过滤掉不存在domain的数据,domain是文件路径的一部分
    stream
        .filter(botAnnotationData -> StringUtils.isNotEmpty(botAnnotationData.getDomain()))
        .collect(Collectors.groupingBy(BotAnnotationData::getDomain,
            new BatchCollector<>(5000, list -> {
              String domain = list.stream().findFirst().map(BotAnnotationData::getDomain).get();
              //如果不存在该domain的HDFS文件句柄,则创建一个句柄
              FSDataOutputStream fsDataOutputStream = writerMap
                  .computeIfAbsent(domain, (k) -> createTextFileWriter(k, dataType));
              //刷新数据到HDFS
              flushData(fsDataOutputStream, list, dataType, this::parseBotAnnotationData);
            })));
  }
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值