carbondata 介绍

CarbonData是一款设计用于大数据分析的系统,旨在提供多场景支持,如批处理、OLAP、明细查询和实时查询。它通过高效的数据索引、压缩和编码优化查询性能,减少I/O和CPU资源。在华为的客户案例中,CarbonData实现了5~30倍的性能提升。文件格式以blocklet和Data Chunk为单位,结合多级索引,优化查询效率。
摘要由CSDN通过智能技术生成

1、为什么要使用carbondata?
CarbonData支持完整的标准SQL支持,以及多种分析场景的支持,“一份数据支持多种使用场景”,例如大规模扫描和计算的批处理场景,OLAP多维交互式分析场景,明细数据即席查询,主键低时延点查,以及对实时数据的实时查询等场景主要概括为一下几种

(1)支持海量数据扫描提取其中某些列;
(2)支持根据主键进行查找的低于秒级响应;
(3)支持海量数据进行交互式查询的秒级响应; 
(4)支持快速地抽取单独记录,并且从该记录中获取到所有列信息; 
(5)支持HDFS,可以与Hadoop集群进行很好的无缝兼容。

可以看出当前的很多大数据系统虽然都能支持各类查询场景,但他们都是偏向某一类场景设计的,在不是其目标场景的情况下要么不支持要么退化为全表扫描,所以导致为了应对批处理,多维分析,明细数据查询等场景,常常需要通过复制多份数据,每种场景要维护一套数据。CarbonData的设计初衷正是为了打破这种限制,做到只保存一份数据,最优化地支撑多种使用场景。
2、CarbonData基础特性
(1)数据及索引:在有过滤的查询中,它可以显著地加速查询性能,减少I/O和CPU资源;CarbonData的索引由多级索引组成,计算引擎可以利用这些索引信息来减少调度和一些处理的开销;扫描数据的时候可以仅仅扫描更细粒度的单元(称为blocklet),而不再是扫描整个文件;
(2)可操作的编码数据&#

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值