场景1:3-4g的excel文件的写入操作
一次大批量的数据写入操作的话,使用传统的文件读取的inputStream显然是不合适的。推荐使用fastjson的stream读取的方式的。需要使用到相关的stream api的方式来实现操作管理的。具体的可以参考这个来处理实现
https://blog.csdn.net/elvishehai/article/details/107604498
或者是使用jackson的streaming api的方式实现操作即可的。大量的数据的对哦操作推荐使用stream的api方式来实现的。
下面是典型的几个使用场景的:
1)大规模的文本处理操作,比如,大规模的json文件的读取和转换操作。
2)大规模的excel文件的读取和写入等操作的
场景2:kakfa需要一次处理几个g的消息;
kafka一次处理大量的数据的话,推荐使用的方案是使用kakfa的bucket的分区操作实现的。其核心类似于es或者是mongodb的bucket操作实现的。
bucket的原理可以解决一次写入大量数据的操作和实现的。下面是使用示例代码和实现的逻辑的。是可以根据对应的分区来实现相关的offset的数据提交的。
ListenableFuture<SendResult<K, V>> send(String topic, Integer partition, Long timestamp, K key, V data);
使用kafka的话,很多的高级的功能实现需要借助于分区的操作来实现的,比如分区提交以及分区的相关的协作等的,这个是kafka的高级的功能的实现思路的。
场景3:es或者是mogodb的一次大批量数据的写入操作实现
es或者是mongodb对应的都是存在bucket分桶的操作的,还包括其他的比如华为的obs等的,分布式文件系统的话,阿里的oss等对应的都是
大量数据写入的方案
最新推荐文章于 2022-05-13 16:34:43 发布