一文读懂云原生大数据平台KDP开源版

LinkTime_Cloud

于 2024-06-18 09:00:11 发布

阅读量459

点赞数 1

文章标签：云原生大数据开源

原文链接：https://mp.weixin.qq.com/s?__biz=MzU4NDQ2NzQ1NA==&mid=2247492458&idx=1&sn=ba5a621f71c9f2f0f191c6874855277e&chksm=fcdad952b4fae195c5e14a20e0acbaa526e12e14ebab94c5dae086b71c715d2b01966719ed1d&scene=126&sessionid=0

版权

金津，智领云高级研发经理。

华中科技大学计算机系硕士。加入智领云 7 余年，长期从事云原生、容器化编排领域研发工作，主导了智领云自研的 BDOS 应用云平台、云原生大数据平台 KDP 等产品的开发，并在多个大规模项目中成功实施落地，在大规模容器化编排系统方向有丰富的实践经验。

今年是Kubernetes的10周年，而“曾经”以Hadoop为代表的大数据生态已发展了将近20年。在云计算时代，各个行业、生态都在积极拥抱云原生，大数据生态也不例外。

传统大数据平台的问题

传统大数据平台通常指的是基于Hadoop、Spark、Kafka等集群组件的系统，这些组件各自为战，存在数据开发迭代速度慢、集群资源利用效率低、运维复杂等问题，具体来说：

组件安装难：各个组件都是独立的安装流程，需要处理各种软、硬件适配，手工配置文件修改，在安装过程中需要人工状态检查及同步协调，难以自动化自助化
资源效率低：各个组件都是事先分配资源，无法共享资源池，或者根据负载动态调整组件的资源分配，造成资源分散，隔离度高，闲置率高
运行效率低：系统的大部分计算还依赖于传统Yarn引擎和MapReduce，难以统一计算、调度引擎，难以利用社区进展提升计算、调度引擎效率
运维管理难：各个组件都是独立运维，网络、存储方案难以统一，运维复杂，对运维人员要求高，常规运维操作难以自动化

用户期望云原生大数据技术能够在这些方面为传统大数据平台带来优化和改进。

云原生大数据代表了未来的技术趋势

从2018年起，一些开源大数据引擎陆续开始了 on Kubernetes 的探索，而到了2021年3月，Apache Spark 3.1 正式支持了Kubernetes，越来越多的企业开始在生产环境使用大数据云原生融合的技术。

2021年，云原生大数据领域出现了两大标志性事件，一个2021年3月份，Apache的Spark支持了Kubernetes，另外一个，2021年5月份，Kafka也公开支持Kubernetes；

美国苹果公司在2022年的⼀次技术⼤会上透露，Apple 的云原⽣⼤数据平台每天运⾏38万个 Spark 作业；

Databricks / Cloudera 等头部企业主要底层平台已经在往 K8s 迁移，例如 Spark 的缺省调度引擎将会迁移到基于 K8s 的 Volcano 和 YuniKorn 上，⽽对 Yarn 的⽀持会逐渐退出主流解决⽅案；

2022年6⽉，阿⾥云和腾讯云的云原⽣数据湖产品均通过了中国信息通信研究院⾸批云原⽣数据湖能⼒评测；

在华为2022年9⽉发布的《云原⽣2.0⽩⽪书》中，数据应⽤和业务应⽤会在统⼀的云原⽣基础设施上以云原⽣形态运⾏；

据Gartner估计，到2025年，超过95%的新数字工作负载将被部署在云原生平台上，而在2021年这一比例只有30%。

随着 K8s 的进—步成熟和工具链的完善，我们相信越来越多的大数据应用会以云原生的方式发布。如何利用新的云原生体系提升大数据系统的效率，是每个希望高效完成数字化转型的企业需要回答的问题。

现代化混合云原生数据平台--KDP

如今，在大数据平台的云原生化已是大势所趋的情况下，真正的云原生大数据平台究竟什么样？对此，智领云高级研发经理金津表示“云原生大数据平台的标准，就是能否部署在K8s环境中，不管是私有云，还是公有云。标准即是无需反复折腾物理架构的配置，也无需熬夜改造平台代码，只要能将整套大数据平台顺利部署在K8s之上，就是‘云原生大数据平台’”。

满足这样标准的云原生大数据平台，即Kubernetes Data Platform（简称 KDP）提供了一个基于 Kubernetes 的现代化混合云原生数据平台。

KDP技术上的突破

之所以能被外界称为“真正的K8s云原生大数据平台”，是因为KDP是目前市场上第一款公开的完全基于K8s搭建的容器大数据平台，并逐一突破各项云原生关键技术：

对大数据核心组件进行代码级别的改造以支持K8s 资源调度，网络及存储体系，并将这些组件的最新版本进行统一集成；
在大数据组件的Operator和Helm Chart之上创建了统一抽象层，实现发布和运维的标准化和自动化；
扩展并强化了多租户环境下的安全认证及鉴权机制，采用统一的Kerberos安全认证和基于Ranger的授权机制；
利用K8s的命名空间实现多租户管理，资源隔离，实现按需动态资源配置，并实现了资源使用统计计费组件；
基于OAM标准统一应用发布和管理流程，打通各组件之间的配置管理，实现Infra as Code；
对计算引擎在云原生形态下的性能进行优化，例如：批流作业统一的Volcano调度，解决了Spark on HDFS的Data Locality问题。

KDP的优势

KDP既可以快速从零开始打造一套企业级云原生大数据底座平台，同时也可以支持渐进式地对现有大数据系统进行云原生改造和迁移，助力企业更高效地进行数字化创新和数字化转型。其优势可总结为以下三点：

◼︎ 更高的集群资源利用率

KDP可以帮助我们的客户，从传统大数据平台30%左右的资源利用率，提升到65%左右（业界普遍认为合理的水位线）

◼︎ 更高效的集群运维

KDP通过标准化流程简化了大数据集群的运维，并提供UI界面进一步提升了各种数据组件部署、升级等操作的效率

◼︎ 更容易集成新的大数据组件

KDP提供基于开放应用模型的统一集成框架，为大数据组件自动化集成了监控、运维、告警能力，极大地缩短了大数据项目开发和上线时间

KDP界面展示

集群概览

应用市场

应用实例资源拓扑

多租户管理

快速体验

值得一提是，KDP 目前已提供开源版本，开发者只要准备好命令行工具，一键部署Hadoop，Hive，Spark，Kafka, Flink, MinIO ...单机即可体验大数据平台。

🚀GitHub项目：

https://github.com/linktimecloud/kubernetes-data-platform

欢迎您参与开源社区的建设🤝

- FIN -

更多精彩推荐

LinkTime_Cloud CSDN认证博客专家

CSDN认证企业博客

180: 原创

7640: 周排名

8633: 总排名

25万+: 访问

: 等级

4101: 积分

725: 粉丝

1103: 获赞

23: 评论

1325: 收藏

私信

关注

热门文章

分类专栏

大数据 21篇
硅谷 5篇
数据中台 19篇
公司新闻 8篇
技术文章 9篇
案例分享 7篇

最新评论

DocETL：用于构建复杂 LLM 驱动的文档处理管道系统 | LeetTalk Daily
pk_xz123456: 介绍了DocETL这一创新框架，其在文档处理方面优势显著。通过代理查询重写、计划评估机制及新指令，有效提升了对非结构化数据处理的准确性和效率，在多行业应用案例中表现出色。未来发展方向明确，如增强查询重写、引入自适应评估等，开源特性也将助力其持续完善，有望在文档处理领域发挥更大作用，推动行业发展。
Meta首款多模态Llama 3.2开源：支持图像推理，还有可在手机上运行的版本 | LeetTalk Daily...
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/619340768。
LeetTalk Daily | 比GPU性价比高百倍，Cerebras 推出全球最快 AI 推理解决方案
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python
容器中的大模型(二) | 利用大模型，使用自然语言查询SQL数据库
喜喜喜之狼: 大佬我在做这个的时候，最后一步导入数据，但是打开访问界面的时候说sql版本不兼容，重新装了一个还是不行可以推荐一下mysql和Navicat Permium的版本嘛
【工具篇】2021年11款最佳的开源 Kubernetes 工具
初晴181: 最近用了下ApiPost，操作跟Postman基本一样。中文的界面，也便于查找和使用功能，很方便。有感兴趣的可以研究下。

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。