大量数据写入的方案

最新推荐文章于 2022-05-13 16:34:43 发布

VIP文章 qq_33409840

最新推荐文章于 2022-05-13 16:34:43 发布

阅读量396

点赞数

分类专栏： Java基础知识文章标签： kafka big data java

本文链接：https://blog.csdn.net/qq_33409840/article/details/123565255

版权

场景1:3-4g的excel文件的写入操作
一次大批量的数据写入操作的话，使用传统的文件读取的inputStream显然是不合适的。推荐使用fastjson的stream读取的方式的。需要使用到相关的stream api的方式来实现操作管理的。具体的可以参考这个来处理实现
https://blog.csdn.net/elvishehai/article/details/107604498
或者是使用jackson的streaming api的方式实现操作即可的。大量的数据的对哦操作推荐使用stream的api方式来实现的。
下面是典型的几个使用场景的：
1)大规模的文本处理操作，比如，大规模的json文件的读取和转换操作。
2）大规模的excel文件的读取和写入等操作的
场景2：kakfa需要一次处理几个g的消息；
kafka一次处理大量的数据的话，推荐使用的方案是使用kakfa的bucket的分区操作实现的。其核心类似于es或者是mongodb的bucket操作实现的。
bucket的原理可以解决一次写入大量数据的操作和实现的。下面是使用示例代码和实现的逻辑的。是可以根据对应的分区来实现相关的offset的数据提交的。
ListenableFuture<SendResult<K, V>> send(String topic, Integer partition, Long timestamp, K key, V data);
使用kafka的话，很多的高级的功能实现需要借助于分区的操作来实现的，比如分区提交以及分区的相关的协作等的，这个是kafka的高级的功能的实现思路的。
场景3：es或者是mogodb的一次大批量数据的写入操作实现
es或者是mongodb对应的都是存在bucket分桶的操作的，还包括其他的比如华为的obs等的，分布式文件系统的话，阿里的oss等对应的都是