Apache CarbonData :一种为更加快速数据分析而生的新Hadoop文件版式

最新推荐文章于 2024-08-06 03:45:58 发布

小爷毛毛（卓寿杰）

最新推荐文章于 2024-08-06 03:45:58 发布

阅读量7k

点赞数

分类专栏：大数据文章标签： hadoop 数据分析华为 CarbonData spark

大数据专栏收录该内容

28 篇文章 1 订阅

订阅专栏

http://blog.csdn.net/u011239443/article/details/52015680

github：https://github.com/apache/incubator-carbondata
参考：陈亮，华为:《Spark+CarbonData(New File Format For Faster Data Analysis)》 http://www.meetup.com/Hangzhou-Apache-Spark-Meetup/events/231071384/

用例和动机：为什么介绍一种新的文件格式？

用例: 顺序扫描

这里写图片描述

全表扫描
- 大扫描(全行, 没过滤)
- 只获取表的几列作为查询结果
通常的使用场景:
- ETL工作
- 日志分析

用例:随机访问

这里写图片描述

在很多列进行过滤(点查询)
- 行键值查询 (比如HBase)
- 窄扫描但可能要获取所以列
- 要求秒/亚秒级别的低延迟
通常的使用场景:
- 操作查询
- 用户分析

用例：OLAP类查询

这里写图片描述
- 任意范围的交互数据分析
- 包括聚合/join
- Roll-up, Drill-down, Slicing and Dicing
- 低延迟的点对点查询
- 通常的使用场景:
- 仪器报表
- 诈骗&点对点分析

动机

这里写图片描述

为什么需要CarbonData

基于以下需求，我们研究Hadoop生态系统中现有的文件格式，但是我们不能找到一个同时满足所有需求的合适的方法，所以我们开始设计CarbonData。

支持广扫描& 少列结果
支持在亚秒级响应主键查找
支持大数据上涉及一个查询中有许多过滤的交互OLAP类查询, 并能以秒级响应
支持包含全列的单条记录的快速抽取
支持HDFS以便用户可以管理正存在的Hadoop集群

当我们研究Parquet/ORC，它们似乎在R1和R5上表现很好，但是对于R2，R3，R4则不然。所以我们设计CarbonData主要增加以下不同的特性：

带索引的数据存储：它可以显著的提高查询性能，并且当查询中有过滤条件，可以减少I/O扫描与CPU资源开销。CarbonData索引包括多个级别，处理框架可以通过这个索引来减少它需要调度和处理的任务。它也可以在一个更加高效的单元（叫做blocklet）里面跳跃扫描，而不用扫描整个文件。
可操作的编码过的数据：通过支持高效的压缩和全局编码设计，使得可以在已经压缩/编码过的数据上进行查询。数据可以仅当返回结果给用户的时候才修改，即“惰性实现”。
列组：允许多列组成一个列组，并以行格式进行存储。这减少了查询时的行重建的开销。
用一种数据格式支持多种用例：如交互OLAP类查询，顺序查找（广扫描），随机访问（窄扫描）。

设计目标

多种数据访问类型的低延迟
允许压缩编码过数据上的快速查询
确保空间高效性
Hadoop生态系统上可行的通用格式
读最优化的列式存储
利用多级索引实现低延迟
支持利用列组来获得基于行的有点
能够对聚合的延迟解码进行字典编码
贯穿整个广泛的Hadoop生态体系

深入CarbonData文件格式

CarbonData文件结构

这里写图片描述

Blocklet：一个包含列式存储中的多行的集合
Column chunk：在一个Blocklet中一列/列组的数据
- 允许多列组成一个列组&以行格式进行存储
- 列数据以有序索引存储
Footer：元数据信息
- 文件级别的元数据&统计信息
- 表信息
- Blocklet索引&Blocklet级别元数据
  
  一个CarbonData文件是一个HDFS块。

版式

![这里写图片描述](https://img-blog.csdn.net/20160726142453559)

Blocklet

数据根据多维键值（MDK）排序
- 在列存中数据以索引存储

例子：

原始表
编码

对每列的取值进行Hash，如(QTR1->1),(QTR2->2),……
MDK排序
Blocklet逻辑结构图

文件级别Blocklet索引

建立用于过滤的内存中的文件级别MDK索引
为高效扫描做的主要优化

倒排索引

在column chunk选择性的将列数据存储为倒排索引
- 取值种类少的列压缩效果更加好
- 利于快速判断过滤

例子：

Blocklet

我们需要对每个维度按照键值进行排序，但是还要知道每个值原来的行号。所以我们把每个键值map成[值，行号]，然后对每个维度按照键值进行排序。
倒排索引
Blocklet物理结构图
- d列存储内容：值，该行开始往后，有几行都是存这个值
- r列存储内容：值，该行开始往后，有几行都是顺序增1的

这里写图片描述

小爷毛毛（卓寿杰）

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

小爷毛毛（卓寿杰）

博客等级

码龄11年

人工智能领域优质创作者

博客专家认证

283
原创

645
点赞

1472
收藏

6551
粉丝

关注

私信

热门文章

分类专栏

最新评论

论文阅读：《基于深度学习的线上农产品销量预测模型研究》
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
LLM指令微调实践与分析
普通网友: 引领技术潮流，是不可多得的好文，十分值得借鉴和参考。期待博主未来能够持续分享更多好文【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
解读：全民K歌直播推荐算法
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性。
pyspark做Item2vec
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)增加除了各种控件外，文章正文的字数。
【Spark Mllib】K-均值聚类——电影类型
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。