1. 概述
大数据基础服务平台是一种用于管理、存储、处理和分析大量数据的平台。它提供了一系列的大数据处理和分析工具,包括 Hadoop、Hive、HBase、Spark、Flink、Zookeeper、Kafka 等,使得企业和组织能够更好地理解和利用他们的数据。
2. 核心能力
数据采集和预处理: 大数据基础服务平台应该能够从各种来源(如传感器、社交媒体、企业系统等)采集大量数据,并对其进行预处理,例如数据清洗、转换和整合。
数据存储和管理: 大数据基础服务平台应该能够高效地存储和管理大量的数据,包括结构化数据、非结构化数据和半结构化数据。这可能涉及使用分布式文件系统(如 Hadoop 分布式文件系统(HDFS))、NoSQL 数据库(如Cassandra、HBase 等)或其他大数据存储技术。
数据处理和分析: 大数据基础服务平台应该提供各种数据处理和分析工具,以支持数据挖掘、机器学习、实时分析和批处理等任务。这可能包括使用分布式计算框架(如 Hadoop 和 Spark)和数据分析工具(如 Hive、Pig 等)。
数据可视化和报告: 大数据基础服务平台应该能够将分析结果以可视化的方式呈现给用户,帮助他们更好地理解数据和做出决策。这可能涉及使用数据可视化工具(如 Superset 等)和报告工具(如 Grafna 等)。
安全和隐私保护: 大数据基础服务平台应该具备强大的安全功能,以保护数据的机密性、完整性和可用性。这可能涉及使用身份验证、授权、加密和访问控制等技术。
可扩展性和高可用性: 大数据基础服务平台应该具备良好的可扩展性和高可用性,以适应不断增长的数据量和用户需求。这可能涉及使用分布式系统、负载均衡和容错技术等。
管理和监控: 大数据基础服务平台应该提供一套完整的管理和监控工具,以帮助管理员管理和监控平台的性能、容量和健康状况。这可能涉及使用监控工具(如 Prometheus、Zabbix 等)和日志分析工具(如 ELK 等)。
3. 开源免费平台
3.1. Apache Ambari + Bigtop
官网地址:https://ambari.apache.org
官网地址:https://bigtop.apache.org
Apache Ambari 是 Hortonworks 贡献给Apache基金会的Hadoop平台管理软件,2013年11月20日成为Apache顶级项目。是一个大数据平台集成运维管理工具,具备Hadoop组件的安装、管理、运维等基本功能,提供Web UI进行可视化的集群管理,简化了大数据平台的安装、使用难度。
来自官网
Apache Bigtop 是一个开源项目,旨在提供一套完整的开源软件栈,用于构建、测试和部署大数据应用程序。该项目的主要目标是让用户可以轻松地构建、测试和部署 Apache Hadoop 生态系统中的各种组件和工具。
Apache Bigtop 提供了一套工具和框架,可以自动化地构建和测试大数据组件,包括 Hadoop、Hive、HBase、Pig、Spark 等等。同时,Apache Bigtop 还提供了一些示例和文档,帮助用户更好地理解和使用这些组件。
3.2. CDAP
官网地址:https://cdap.io
CDAP 是Hadoop生态系统的集成开源应用程序开发平台,为开发人员提供数据和应用程序抽象,以简化和加速应用程序开发,解决更广泛的实时和批处理用例,并在满足企业需求的同时将应用程序部署到生产中。
来自官网
3.3. CDH
从 2021 年 1 月 31 日开始不再免费提供给新用户,旧用户可以继续使用到 2023 年 1 月 31 日
CDH (Cloudera’s Distribution Including Apache Hadoop) 是Cloudera基于稳定版Hadoop及相关项目最成型的发行版本。CDH中提供的各种组件能让用户在一个可视化的UI界面中方便地管理,配置和监控Hadoop以及其它所有相关组件。
CM (Cloudera Manager) 是Cloudera开发的一个基于Web的用于部署和管理CDH集群的软件。它具有集群自动化安装、中心化管理、集群监控、报警等功能,大大节省集群部署时间,降低了运维成本,极大的提高集群管理的效率。
Cloudera成立于2008年,在2009年Cloudera发行了第一个Hadoop集成版本CDH,到目前为止,因为其易用、易于升级、安装组件和减少维护成本等特性,成为企业部署最广泛的大数据系统。在Hadoop的世界中,规模最大、知名度最高的公司就是Cloudera。CDH提供强大的部署、管理和监控工具,通过Cloudera Manager的Web UI安装和管理集群,并且通过Hue浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据。
来自官网
3.4. CRH
CRH (CHINA REDOOP HYPERLOOP) 寓意”数据高铁”, 代表基于分布式技术的新一代大数据架构。产品由 CRF 数据接入,CRH 数据存储,CRS 数据分析 三大部分构成。为企业提供开放统一的大数据存储和处理环境,产品兼容支持Hadoop生态圈中主要工具,提供PB级海量数据存储、查询、分析和挖掘能力。
Redoop Enterprise 是专注于Apache Hadoop生态的企业级大数据平台软件,专注于软件交付生命周期中的 安装管理,组件状态维护 , 参数配置 , 运行监控等环节,为企业提供一体化企业级平台软件。
来自官网
3.5. CloudEon
官网地址:https://cloudeon.top
CloudEon 是一款基于kubernetes的开源大数据平台,旨在为用户提供一种简单、高效、可扩展的大数据解决方案。该平台致力于简化多种大数据服务在kubernetes上的部署和管理,如Hadoop、Doris、Spark、Flink、Hive、Kafka等,能够满足不同规模和业务需求下的大数据处理和分析需求。
来自官网
3.6. DataSophon
官网地址:https://datasophon.github.io/datasophon-website
DataSophon 是一个国产开源的大数据管理平台,在兼顾传统 Hadoop 组件的同时又支持新一代大数据组件栈,并且支持云原生的能力,致力于快速实现大数据组件部署、监控以及自动化运维管理,旨在帮助用户快速构建稳定、高效、自愈、可弹性伸缩的大数据云原生平台。致力于自动化监控、运维、管理大数据基础组件和节点的,帮助您快速构建起稳定,高效的大数据集群服务。
来自官网
3.7. HDP
官网地址:https://cloudera.com
Cloudera 和 Hortonworks 于 2019 年 1 月 3 日宣布合并,成立新公司 Cloudera。从 2021 年 1 月 31 日开始不再免费提供给新用户。
HDP (Hortonworks Data Platform) 是Hortonworks在基于Hadoop的发行版本。2014年Hortonworks上市,是企业级全球数据管理平台,同时也是服务和解决方案的领先供应商,为100强企业中的一多半提供“任何类型数据”的可操作信息,已经成为世界第二大数据服务商。Hortonworks是第一家使用了Apache HCatalog的元数据服务特性的提供商。Hortonworks为入门提供了一个非常好的,易于使用的沙盒。
Hortonworks开发了很多增强特性并提交至核心主干,这使得Apache Hadoop能够在包括Windows Server和Windows Azure在内的Microsft Windows平台上本地运行,相比于CDH只能运行在Linux系统中。使用Ambari提供Web UI管理集群。
来自官网
3.8. HiDataPlus
官网地址:http://www.hdp.link
HiDataPlus 是 HDP 用户的最佳替代。
HiDataPlus 一个可持续升级的免费Hadoop发行版;HidataPlus是由几个热爱开源软件的成员组成,因为Hortonworks和Cloudera合并等原因,原有的HDP版本不再更新,于是我们尝试进行了集成新的版本。我们的版本不仅支持x86,也支持aarch64(arm服务器),在某种关系不断升级的背景下,我们希望也能贡献一些自己的力量。
3.9. LarkMidTable
官网地址:https://github.com/birdLark/LarkMidTable
LarkMidTable 是一站式开源的数据中台,实现元数据管理,数据仓库开发,数据质量管理,数据的可视化,实现高效赋能数据前台并提供数据服务的产品。
来自官网
3.10. PackOne
官网地址:https://gitee.com/opensci/packone
PackOne 致力于简化大数据软件在各类云上的弹性部署流程。通过对云API和Apache Ambari API的联合调用,完成Hadoop、Spark、NiFi、PiFlow、Kylin、MangoDB、Neo4J、Redis等流行的大数据管理/处理软件在云端的一键快速部署和一键伸缩。PackOne目前已支持OpenStack、H3CloudOS、EVCloud等私有云系统,以及公有云中国科技云(CSTCloud)。
3.11. USDP
官网地址:https://www.ucloud.cn/site/product/usdpdc.html
USDP (UCloud Smart Data Platform) 是 UCloud 推出的智能化、轻量级的大数据基础服务平台,能够帮您快速构建起大数据的分析处理能力。
UCloud 基于多年大数据平台开发经验,发布了针对私有化部署场景下的一站式智能大数据平台USDP社区版。其具备构建于 IDC物理服务器、云 IaaS 虚拟服务器的能力,其通过自研的 USDP Manager 管理工具,支持管理多套大数据集群,您可创建资源独享的大数据集群。支持HDFS、ES全生态,并在集群中管理Hive、HBase、Spark、Flink、Presto 等开源的大数据组件,如进行集群节点、服务配置、监控告警、故障诊断等智能化的运维管理操作,从而协助您轻松构建和管理大数据业务的分析处理能力。
来自官网
4. 国内商用平台
4.1. 宇动源 BDP
官网地址:https://www.cosmosource.com/bdp.html
BDP 大数据基础平台是对现有大数据底层技术的封装和提升。通过统一数据访问、统一资源服务、统一计算调度、融合计算、融合存储等技术手段,屏蔽了底层技术的复杂度。为上层应用提供一个使用更方便、维护更轻松、扩展更容易的基础平台。
来自官网
4.2. 德拓 DDP
官网地址:
DDP (Dana Data Platform) 是基于开源技术的成熟大数据商用平台,整合了德拓近几年大数据实践项目中的技术积淀,也包含以Hadoop为主的大数据生态基础引擎。平台涵盖数据采集、存储计算、分析挖掘、应用建模、可视化展现以及运维管理等多维度能力。终端用户可通过丰富的平台接口,完成各行业大规模数据的挖掘分析与应用对接管理。
来自官网
4.3. 智领云 KDP
官网地址:https://www.linktimecloud.com/kubernetes-data-platform
KDP (Kubernetes Data Platform) 是智领云自主研发的,市场上首个可完全在Kubernetes上部署的容器化云原生大数据平台,深度整合了云原生架构的优势,将大数据组件及数据应用纳入Kubernetes管理体系,标准化系统管理,提升系统运行效率,降低运维成本,消除应用孤岛及数据孤岛,解决传统Hadoop大数据平台在部署,运维,运行效率上由于架构限制带来的难点。
来自官网
4.4. 时速云 KubeData
官网地址:https://www.tenxcloud.com/kubedata
云原生数据平台 KubeData® 是基于云原生技术打造的一站式可视化数据建设和数据开发平台。集容器云、数据汇聚、数据规划、数据开发、数据智能、数据资产、数据服务功能于一体。KubeData®是由 Kubernetes 的前四个字母 "Kube" 和 "Data"的组合,寓意云原生数据平台。
来自官网
4.5. 网易数帆 NDH
官网地址:https://study.sf.163.com/documents/read/ndh_2.0/ProductDescription
有数大数据基础平台 NDH (NetEase Digital Sail Youshu DataHub) 是网易数帆最新推出的企业级大数据基础平台。产品基于最新开源技术打造,内置多种存储计算引擎,并在Hadoop、Spark、Impala等多个核心组件做了功能及性能增强,新增Easyeagle实现智能运维和任务治理,支持企业级安全管控。
来自官网
4.6. 星环 TDH
官网地址:https://www.transwarp.cn/product/tdh
TDH (Transwarp Data Hub) 是国内外领先的高性能平台,比开源基于Hadoop MapReduce计算框架的版本快10x~100x倍。TDH 应用范围覆盖各种规模和不同数据量的企业,通过内存计算、高效索引、执行优化和高度容错的技术,使得一个平台能够处理GB级到PB级的数据,并且在每个数量级上,都能比现有技术提供更快的性能;企业客户不再需要混合架构,TDH可以伴随企业客户的数据增长,动态不停机扩容,避免MPP或混合架构数据迁移的棘手问题。
2006年Hadoop技术的出现标志着大数据技术时代的开始,经过10多年的蓬勃发展,大数据技术已经真正承托起一大批 企业的数据基础架构。经过4年的快速演进,Transwarp Data Hub(简称TDH)已成为国际一流的大数据平台。从2016年起,TDH 正式成为 Gartner 认可的 Hadoop 国际主流发行版本。
来自官网
5. 总结
随着 Cloudera 和 Hortonworks 合并后,逐步将 CDH 和 HDP 停止免费使用后,市场上便掀起了对大数据基础服务平台的替代浪潮。尤其是国内外众多厂商纷纷推出了自己的大数据平台产品。其中,星环的 TDH (Transwarp Data Hub) 在商用领域呈现一家独大的场面。虽然,也有一些厂商对大数据基础服务平台、数据中台、技术中台、服务中台等方面各有布局,但总有企业在尝试开源替代。
所以,企业需要根据自身的需求和实际情况选择合适的大数据平台,并注重数据的安全性、可靠性和可扩展性。未来,大数据平台将更加智能化和自动化,为企业提供更加高效、便捷的数据处理和分析服务。