基于Hadoop生态系统的一种高性能数据存储格式CarbonData（性能篇）

云布道师

于 2018-07-06 17:29:00 发布

阅读量257

点赞数

一、评测环境

1）网络拓扑图

2）配置参数

Ø 服务器配置

二、性能对比

目前主流hadoop的文件存储格式有行存储的CSV格式，列式存储的ORC和Parquet等。本章给出的是Parquet+Spark和CarbonData+Spark在过滤查询场景和聚合计算场景的性能测试结果。

1）测试数据

创建沈阳社保的数据仓库，导入、集成1年的测试数据，如下表：

生成CarbonData格式文件，如下表：

2）过滤查询场景测试

Parquet和CarbonData在过滤查询场景下的性能对比

3）聚合计算场景测试

Parquet和CarbonData在聚合计算场景下的性能对比

4）总结分析

在过滤查询中，CarbonData的查询效率比parquet效率好，主要体现在列数据的索引查询，极大地提高了精确查询的性能。在聚合查询中，CarbonData通过使用全局字典编码来加快计算速度，这使得处理、查询引擎可以直接在编码好的数据上进行处理而不需要转换数据，数据只有在返回结果给用户的时候才转换成用户可读的形式，通过索引有效过滤文件数据块减少磁盘的IO，提高查询性能。

三、小结

CarbonData在数据查询的性能表现比Parquet好很多，在写一次读多次的场景下非常适合使用；社区比较活跃，响应也很及时。目前官网发布版本1.3.0与最新的spark稳定版Spark2.2.1集成，增加了支持标准的Hive分区，支持流数据准实时入库等新特性，相信会有越来越多的项目会使用到。

相关阅读：

基于Hadoop生态系统的一种高性能数据存储格式CarbonData（基础篇）

关于作者：

本文是由东软集团平台产品技术发展部成员共同撰写，东软集团是中国领先的IT解决方案与服务供应商，股票代码600718。

关于“Linux宝库”微信公众号：

欢迎关注"Linux宝库"微信公众号，这里每天发布最新的开源人物和开源事件。谨以此号记录Linux和开源业界的点点滴滴，为开源爱好者和从业者点亮人生。

- 责任编辑：耿航 -
- END -

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
基于Hadoop生态系统的一种高性能数据存储格式CarbonData（性能篇）

一、评测环境1）网络拓扑图2）配置参数Ø服务器配置二、性能对比目前主流hadoop的文件存储格式有行存储的CSV格式，列式存储的ORC和Parquet等。本章给出的是Parquet+S...
复制链接

扫一扫

云布道师 CSDN认证博客专家

CSDN认证企业博客

472: 原创

2万+: 周排名

3659: 总排名

92万+: 访问

: 等级

9740: 积分

2014: 粉丝

957: 获赞

100: 评论

2208: 收藏

私信

关注

热门文章

分类专栏

阿里云用户组 18篇
云栖大会 22篇

最新评论

阿里云赵大川：弹性计算推理解决方案拯救 AIGC 算力危机
lkssoftware: 实测了一把，确实强！目前看还没有其他SD推理方案在保持高度灵活的前提下达到这么好的性能，没个十年GPU优化功底搞不定这个东西
【云栖 2023】张治国：MaxCompute 架构升级及开放性解读
白话机器学习: 写的非常详细，是一篇优质博客，干货满满，让我有了全新的认识，感谢博主分享，让我学到了很多，支持支持。
机器学习笔记（二十八）：高斯核函数
站在井底憧憬星空: matlab理解了一下前面的，供其他人理解吧 clc clear x=-4:1:5; y=ones(1,10); % plot(x,y,'*') z1=-1; y1=exp(-(x-z1).^2); z2=1; y2=exp(-(x-z2).^2); z3=3; y3=exp(-(x-z3).^2); figure plot(x([1 2 9 10]),y([1 2 9 10]),'*') hold on plot(x([3:8]),y([3:8]),'+') hold off figure plot(y1([1 2 9 10]),y2([1 2 9 10]),'*') hold on plot(y1([3:8]),y2([3:8]),'+') hold off xlim([0 2]) ylim([0 2]) figure scatter3(y1([1 2 9 10]),y2([1 2 9 10]),y3([1 2 9 10]),'*') hold on scatter3(y1([3:8]),y2([3:8]),y3([3:8]),'+') hold off
应用部署架构：如何降低云网络时延？
斜渡凛: 请问作者表格3.1.7来源，想引用一下相关内容谢谢
详解PowerPC、X86和ARM架构区别
herbertyellow: 801计算机与贝克莱大学的RISC处理器……我想了半天贝克莱大学是哪所大学，第二天才反应过来原来就是Berkeley。建议还是翻译成国内通常使用的伯克利大学容易让人理解一些

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。