之前分析源码时经常会看到DataCarrier这个类,现在详细分析一下这个。
简单来说就是维护了一个本地的轻量级消息队列模型,主要目的为了防止收集方生成数据速度大于往后端发送数据速度造成的数据积压和生成方阻塞。
这里有几个关键类:
- DataCarrier 主要类型,针对内存消息队列的操作都是以这个类为入口的。 该类持有了Channels和IDriver
- Channels 数据通道集合,用于针对数据的存取操作。主要有以下属性:
- bufferChannels 数据的存取操作
- dataPartitioner 定义了数据分区逻辑
- strategy 缓存数据的策略
- size 总容量
- IDriver 消费者的驱动。 主要是驱动消费者如何消费的。
画一个结构图:
以MetricsAggregateWorker为例,情况比较符合第一种情况
初始化部分:
this.dataCarrier = new DataCarrier<>("MetricsAggregateWorker." + modelName, name, 2, 10000);
BulkConsumePool.Creator creator = new BulkConsumePool.Creator(
name, BulkConsumePool.Creator.recommendMaxSize() * 2, 20);
try {
ConsumerPoolFactory.INSTANCE.createIfAbsent(name, creator);
} catch (Exception e) {
throw new UnexpectedException(e.getMessage(), e);
}
this.dataCarrier.consume(ConsumerPoolFactory.INSTANCE.get(name), new AggregatorConsumer());
几个参数:
public DataCarrier(String name, String envPrefix, int channelSize, int bufferSize)
channelSize 即queueBuffer的个数,这里是2个
bufferSize即每个queueBuffer的长度,这里是10000
public Creator(String name, int poolSize, long consumeCycle)
poolSize 消费者池的大小,这里是CPU个数 * 2 * 2
consumeCycle 是消费者线程的循环周期,20毫秒。
BulkConsumePool用来管理消费者线程的,构造方法:
public BulkConsumePool(String name, int size, long consumeCycle) {
size = EnvUtil.getInt(name + "_THREAD", size);
allConsumers = new ArrayList<MultipleChannelsConsumer>(size);
for (int i = 0; i < size; i++) {
MultipleChannelsConsumer multipleChannelsConsumer = new MultipleChannelsConsumer("DataCarrier." + name + ".BulkConsumePool." + i + ".Thread", consumeCycle);
multipleChannelsConsumer.setDaemon(true);
allConsumers.add(multipleChannelsConsumer);
}
}
初始化了poolSize个线程MultipleChannelsConsumer,看一下他的run方法:
@Override
public void run() {
running = true;
final List consumeList = new ArrayList(