实战技术：单表千亿电信大数据场景，使用Spark+CarbonData替换Impala案例

最新推荐文章于 2024-03-04 20:19:59 发布

AI科学小老师

最新推荐文章于 2024-03-04 20:19:59 发布

阅读量419

点赞数

本文链接：https://blog.csdn.net/weixin_41663412/article/details/104848375

版权

个人博客导航页（点击右侧链接即可打开个人博客）：大牛带你入门技术栈

【背景介绍】

国内某移动局点使用Impala组件处理电信业务详单，每天处理约100TB左右详单，详单表记录每天大于百亿级别，在使用impala过程中存在以下问题:

详单采用Parquet格式存储，数据表使用时间+MSISDN号码做分区，使用Impala查询，利用不上分区的查询场景，则查询性能比较差。
在使用Impala过程中，遇到很多性能问题(比如catalog元数据膨胀导致元数据同步慢等)，并发查询性能差等。
Impala属于MPP架构，只能做到百节点级，一般并发查询个数达到20左右时，整个系统的吞吐已经达到满负荷状态，在扩容节点也提升不了吞吐量。
资源不能通过YARN统一资源管理调度，所以Hadoop集群无法实现Impala、Spark、Hive等组件的动态资源共享。给第三方开放详单查询能力也无法做到资源隔离。

【解决方案】

针对上面的一系列问题，移动局点客户要求我们给出相应的解决方案，我们大数据团队针对上面的问题进行分析，并且做技术选型，在这个过程中，我们以这个移动局点的几个典型业务场景作为输入，分别对Spark+CarbonData、Impala2.6、HAWQ、Greenplum、SybaseIQ进行原型验证，性能调优，针对我们的业务场景优化CarbonData的数据加载性能，查询性能并贡献给CarbonData开源社区，最终我们选择了Spark+CarbonData的方案，这个也是典型的SQL On Hadoop的方案，也间接印证了传统数据仓库往SQL on Hadoop上迁移的趋势。参考社区官网资料，结合我们验证测试和理解：CarbonData是大数据Hadoop生态高性能数据存储方案，尤其在数据量较大的情况下加速明显，与Spark进行了深度集成，兼容了Spark生态所有功能（SQL,ML，DataFrame等），Spark+CarbonData适合一份数据满足多种业务场景的需求，它包含如下能力：

存储：行、列式文件存储，列存储类似于Parquet、ORC，行存储类似Avro。支持针对话单、日志、流水等数据的多种索引结构。
计算：与Spark计算引擎深度集成和优化；支持与Presto, Flink, Hive等引擎对接；
接口：
1. API：兼容DataFrame, MLlib, Pyspark等原生API接口；
2. SQL：兼容Spark语法基础，同时支持CarbonSQL语法扩展（更新删除，索引，预汇聚表等）。
数据管理：
1. 支持增量数据入库，数据批次管理(老化管理)
2. 支持数据更新，删除
3. 支持与Kafka对接，准实时入库

详细的关键技术介绍以及使用，请上官网阅读查看文档https://carbond

最低0.47元/天解锁文章

AI科学小老师

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
实战技术：单表千亿电信大数据场景，使用Spark+CarbonData替换Impala案例

个人博客导航页（点击右侧链接即可打开个人博客）：大牛带你入门技术栈【背景介绍】国内某移动局点使用Impala组件处理电信业务详单，每天处理约100TB左右详单，详单表记录每天大于百亿级别，在使用impala过程中存在以下问题:详单采用Parquet格式存储，数据表使用时间+MSISDN号码做分区，使用Impala查询，利用不上分区的查询场景，则查询性能比较差。在使用Impal...
复制链接

扫一扫