从大数据平台CDP的架构看大数据的发展趋势

大家好,我是明哥!

1 CDP 介绍

熟悉大数据业界的小伙伴们都知道,Cloudera 在跟 HortonWorks 合并后,便推出了新一代大数据平台 CDP,并正在逐步停止对原有的大数据平台 CDH 和 HDP 的维护。

下图简要介绍了目前市面上主流CDH和HDP版本的关键时间点

  • HDP2.x和CDH5.x对应的是hadoop2.x

  • HDP3.x和CDH6.x对应的是hadoop3.x

  • 目前官方已经停止了对HDP2.x和CDH5.X的技术支持

  • 官方对HDP3.x和CDH6.x的技术支持也都会在最近半年停止

  • 具体来讲,HDP3.x的最新版HDP3.1,会在2021/12月停止技术支持

  • 具体来讲,CDH6.x的最新版CDH6.3,会在2022/3月停止技术支持6f2c01eb937a7586caa4e6b005c03ba3.png

CDP 可以认为是将原来的 CDH/HDP 融合在了一起,具体融合方式如下图所示,关键点是:

  • 淘汰了竞争的技术

  • 融合了重叠的技术

  • 保留了互补的技术

  • 升级了共享的技术

  • 并增加了某些新功能

83d2baa36299b00f3eb0a3b8dfe853cb.png 5253481d9a85b7a4a0a6efdae478fdba.png

2 CDP 的不同部署形态

CDP 对应不同场景,推出了两大部署形态:

  • 对应公有云场景的 CDP public cloud, 以 PaaS 形式对外提供服务,目前已经对接了三大公有云厂商 aws, gcp, azure;

  • 对应私有云场景和数据中心场景的 CDP private cloud, 包括 CDP private cloud base 和 CDP private cloud plus,其中前者对应的就是原来场景的 CDH 和 HDP,后者底层封装使用了 docker 和 k8s,经常被用来做计算集群;

  • 以上两个版本底层对应的是同样的 cloudera runtime, 其实质就是大数据各个具体组件,如 hdfs/yarn/hive/spark 等等。

b43508fe3d81cdf738fc65774ae99197.png
  • 随着各行各业数字化转型的推进,当前企业的业务系统,上云是一大趋势,且上云的最终形态,是多个公有云和私有云的混合部署形态,即混合云。在次背景下,Cloudera 也整合并重磅推出了 CDP Hybrid Cloud:

c194bcfb13939a9d37b4ef66f68285da.png a2aa833a73a338ee1e5a9cfaf357a0c8.png

3 CDP Hybrid Cloud 的架构

CDP Hybrid Cloud 顺应了企业数字化转型并最终使用混合云的大趋势,以统一的体验整合了公有云和私有云的资源,其最终架构如下图所示:

f767aa4bd19f14edf8e022c64c4e55ae.png

这里有几个要点解释下:

  • 用户通过熟悉的 Cloudera Manager,使用熟悉的 parcel包,来安装和管理 CDP BASE CLUSETER, 也就是 CDP private cloud base, 就像原来安装和管理 CDH 一样;

  • 用户通过熟悉的 Cloudera Manager,在需要的时候,使用 docker 镜像,在公有云上或私有云上,安装和管理一个或多个 ECS 或 OCP; ( ECS: Amazon Elastic Container Service; OCP: Red Hat OpenShift Container Platform, 两者都是基于 K8S/DOCKER的封装);

  • CDP BASE CLUSETER,主要当做存储集群来使用,当不使用其计算能力时,甚至可以不安装 impala/hs2/spark等计算引擎;

  • ECS 或 OCP,主要当做计算集群来使用,可以不安装也可以安装多个,当不使用其存储能力时,可以不安装 hdfs/ozone 等存储引擎;

  • ECS 或 OCP,对应不同的使用场景,可以安装多个集群,比如对应数仓场景的 CDW(cloudera datawarehouse, 其底层主要是hs2,impala,hue),对应机器学习的CML (cloudera machile learning,其底层主要是 python/r/scala 的jupiter notebook),对应数据工程的 CDE(cloudera data engineering,其底层主要是 spark,airflow)

  • 当然在复杂的场景下,CDP BASE CLUSETER 和 ECS/OCP,也可以是多对多的关系:

ce99cea07ee656afb4924bb514175d44.png 4aeab8fe295471c383fb93133d278315.png 5a1934a0b2337ca51399955303f6337b.png 3b04366db651e6feacb5653f5c9b4bbe.png 3cd53b7c25595405cf00b961a5360bc5.png

4 从 CDP Hybrid Cloud 的架构看大数据的发展趋势

CDP Hybrid Cloud 的架构,具有以下优势和特点:

  • 存储计算分离

  • 计算集群快速搭建和销毁

  • 计算集群弹性扩展和收缩

  • 使用Ozone替代HDFS

  • 集中式用户权限管理

  • 集中式元数据管理

  • 通过CML整合支持机器学习和人工智能

这刚好对应了笔者原来一篇博文里讲到的以下几点大数据发展趋势:

  • 大数据和云计算进一步深度融合,大数据拥抱云计算走向云原生化

  • 大数据更加青睐存储计算分离的架构

  • 大数据更加青睐对象存储

  • 大数据和机器学习/人工智能日益融合

  • 大数据日益重视数据安全

  • 大数据日益重视数据治理

2409d210961dc6a50660a0a3093db7cf.png b06fe15d2e5991eaf7c85c48c4722b48.png e183e555758299a983d5462297556ab2.png 7a7b605a6da903fb3f5151a92cd8831f.png a2bca96ab837392e42b9e2196bfce8f7.png 23dea402d43f2625f3b87e7400e40603.png 67bbb17e99fd94996d997c8da1080d84.png 4ef588af180413331614d4124d4ad607.png 8470153b216b11dc55d74304e4320ac6.png c93ae9ea2623e8fde883de5e9a188cbc.png

5 其它相关博文

  • 一文看懂Cloudera对CDH/HDP/CDP的产品支持策略

  • 从技术视角看大数据行业的发展趋势

  • 公有云?私有云?混合云?多云?行业云?傻傻分不清楚(下篇)

  • 浅谈传统企业的大数据平台如何上云

  • 2021 最新 Cloudera 大数据平台 CDP 升级指南白皮书完整版开放下载!(中文版)

  • 从历年 Gartner hype cycle 看大数据行业的发展历史和趋势

一文看懂Cloudera对CDH/HDP/CDP的产品支持策略

从技术视角看大数据行业的发展趋势

# 公有云?私有云?混合云?多云?行业云?傻傻分不清楚(下篇)

浅谈传统企业的大数据平台如何上云

从历年 Gartner hype cycle 看大数据行业的发展历史和趋势

2021 最新 Cloudera 大数据平台 CDP 升级指南白皮书完整版开放下载!(中文版)

!关注不迷路~ 各种福利、资源定期分享!欢迎小伙伴们关注公众号!

!欢迎小伙伴们添加明哥微信,备注“加群交流”,拉你加入ABC技术交流群!

IT明哥
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

明哥的IT随笔

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值