大数据生态
文章平均质量分 52
半_调_子
因为热爱
展开
-
bulkload导致性能变慢
bulkload是通过启动MapReduce任务直接生成HFile文件,再将HFile文件注册到HBase,因此错误的使用bulkload会因为启动MapReduce任务而占用更多的集群内存和CPU资源,也可能会生成大量很小的HFile文件频繁的触发Compaction,导致查询速度急剧下降。HBase支持使用bulkload和put方式加载数据,在大部分场景下bulkload提供了更快的数据加载速度,但bulkload并不是没有缺点的,在使用时需要关注bulkload和put适合在哪些场景使用。原创 2023-01-23 05:07:36 · 902 阅读 · 0 评论 -
Flink第一章实时计算引擎
Flink是一个针对流数据和批数据的分布式处理引擎,代码主要是由java实现,部分代码是scala。它可以处理有界的批量数据集,也可以处理无界的实时数据集。其所要处理的主要场景就是流数据、批数据只是流数据的一个极限特例而已,所以Flink也是一款真正的流批流一的计算引擎。原创 2022-10-13 00:42:14 · 2857 阅读 · 0 评论