数据云—由Hadoop支持
刚刚开始被理解的Cloudera数据平台(CDP)的一个关键方面是,从架构的角度来看,相对于Hadoop的第一个十年,它代表了重组发展的多少。 在过去的几个月中,我一直在向客户展示CDP,并且反应异常出色。
通过这些讨论,我自然而然地想到了CDP只是两个母发行版(CDH和HDP)的另一个"发行版"(即"统一发行版")。 在某种程度上,这是正确的:我们必须选择一个(例如,就像对Ranger所做的那样)或适当地使用两者(Hive-LLAP / Impala或Atlas / Navigator)。 但是,从很多方面讲,它离事实还很遥远。 已经有一些人(盯着你:安德鲁·布鲁斯特(Andrew Brust)),但是对当前和明确未来的理解却分布不均!
我认为将所有内容放下并绘制图表以更好地了解社区将生态系统带到何处会很有帮助。 系好安全带!
从哲学上讲…
让我们花点时间回顾一下我以前关于该主题的文章,以了解我们的方向。对我个人而言,Hadoop是基于以下原则的一种现代体系结构,用于管理和分析数据的结果:
· 分解软件堆栈-存储,计算,安全性和治理
· 使用分布式系统和商品基础架构进行超大规模构建
· 利用开源获取开放标准和社区规模
· 持续不断地发展生态系统,在各个层面上独立进行创新
十年10 –数据中心中的Hadoop
在第一年中,社区基于当时的技术前沿和约束条件提供了一个具有以下关键特征的数据平台:
0.位于同一位置的计算和存储-网络(大规模)相对于数据量而言昂贵且缓慢,而缓存(RAM和SSD)则相对昂贵(大规模)而言。
1.大型,多租户群集作为共享资源,高端群集超过5,000个节点,重点关注跨数百万批应用程序(YARN)的资源管理以及为数据仓库提供多租户的新兴尝试 (Hive-LLAP / Impala),服务(HBase)等。
2.在共享群集上下载和使用的软件。
3.在本地部署中,企业能够使用诸如网络外围安全性和物理访问控制之类的方法作为安全性的关键支柱。 在许多情况下,客户发现这种简单的安全实施就足够了,并且优先于简化部署而不是更强大的安全机制。
因此,Hadoop部署的架构具有以下感觉:
上述最大,不幸的副作用是升级集群的复杂性:
· 带有收缩包装软件的大型共享集群意味着升级是一个巨大的突破,即每个租户都必须同时升级,而且涉及面非常广泛。
· 组织协调数百名租户和数千个应用程序升级的工作非常艰巨。
· 主机代管架构无法区分存储层(风险)和计算层(协调)的升级。
十年1 —公共云中的Hadoop
然后,第一代体系结构以下列方式被公有云(Amazon EMR,Microsoft HDInsight等)采用:
· 杠杆化的云对象存储与计算脱钩。 社区使用Hadoop兼容文件系统(HCFS)API构建了与S3,WASH等的连接器。
· 使用虚拟机来启动仅是临时性的仅计算的Hadoop集群; 但是,拆分虚拟机本身的开销相对较高(将近10分钟),这导致需要保持群集正常运行,这是一个昂贵的提议。
· 由于计算集群的短暂性,没有一种管理长期存在的元数据,安全策略等的好方法,这也导致了昂贵且长期运行的集群。
十年2 — Hadoop支持的数据云
到第一个十年结束时,我们需要进行根本性的重新思考-不仅是针对公共云的,而且还针对内部部署的。 密切关注未来十年推动Hadoop演进的各种技术力量:
· 云的体验从根本上改变了对易于使用,自助服务,按需,弹性使用软件和应用程序即服务的期望。
· 现在,在公共云和私有云中都可以实现计算和存储分离,从而显着提高工作负载性能。
· 容器和kubernetes作为更灵活,更敏捷的标准操作环境无处不在。
· 流,分析和机器学习的集成-数据生命周期-被认为是几乎每个数据驱动的业务用例的前提。
在上述背景下,平台的架构已形成了十年之久:
0.分解的存储,元数据/安全性/治理和计算层。 特别是,RAM和SSD的使用范围越来越广泛,用于相对便宜的缓存,这意味着即使将存储分解(即将计算转移到存储),我们也可以提供交互式性能。
1.软件以服务形式提供,而不是收缩包装。
2.在容器出现的推动下,一种新的多租户方法可以将每个租户作为独立的私人服务(例如仓库)进行调配,并利用Kubernetes进行软件管理。
3.非常重视本地和公共云的安全性。 不再需要用于混合部署的公司防火墙。
4.对数据隐私的认识不断提高,以及出现了严格的法规(GDPR / EU,CCPA /加利福尼亚,PDPB /印度),因此需要更丰富的治理,包括沿袭,出处以及跨数据迁移(云,内部部署等)的更多治理 以及数据的整个生命周期,包括流传输,数据工程,报告,预测和服务。
新架构带来了以下好处:
0.由于存储/元数据与计算堆栈的分离,易于管理。 即使在诸如内部部署这样的环境中,为了提高效率而同时放置数据和进行计算也很有意义,它们还是可以独立管理(至少直到下一代硬件,网络等发生变化)。
1.由于易于专注于"这是一项服务",因此易于使用,这导致了以角色为中心的UX,用于仓储,机器学习,数据工程,流传输和数据流。
2.使用容器和Kubernetes进行更快的预配,可以极大地加快预配并简化对数据仓库,机器学习,流媒体等服务的管理(即消除管理)。
3.通过SDX在整个数据和分析生命周期中实现强大的安全性和治理,从而实现数据驱动的决策。
现有的从业者已经在要求改善的可管理性,更严格的多租户和隔离功能以及更好的安全性/治理。 结果,帮助企业了解CDP的上述好处使他们感到非常兴奋-不仅对于公共云上的CDP,而且对于私有云形式的CDP(将于今年晚些时候上市)。 这是一个过度使用的术语,既适用于CDP的产品市场(特别是对于真正期待CDP私有云的现有客户)和时机(采用Kubernetes,我们与OpenShift RedHat / IBM的合作),而且似乎非常及时。 激动人心的时刻!
摘要
这是由Hadoop支持的数据架构发展的快速回顾。
进入十二周年之际,下面的摘要说明了随着在本地,多个公共云和混合/私有云中管理数据和工作负载的新现实,架构方面的考虑是如何变化的,
就个人而言,我很高兴看到该平台如何发展以满足未来十年的业务需求。 CDP是云的数据架构。 它提供了始终如一的安全和受管数据平台,可帮助企业控制数据的整个生命周期。 当然,它是100%使用Hadoop构建的。
我期待Hadoop驱动的数据云在这十年中的发展,甚至以后!
*我并不反对贝佐斯在第一天的哲学,我只是忍不住从0开始计数!
(本文翻译自Arun C Murthy的文章《Hadoop: Decade Two, Day Zero*》,参考:https://medium.com/swlh/hadoop-evolution-decade2-ca46e5514713)