TDH与CDH简介

hadoop是一个开源项目,所以很多公司在这个基础进行商业化,下面简单介绍下应用比较广泛的TDH和CDH两个版本

【TDH】
TDH:Transwarp Data Hub
1 Transwarp Inceptor简介
TranswarpInceptor是星环科技推出的用于数据仓库和交互式分析的大数据平台软件,它基于Hadoop和Spark技术平台打造,加上自主开发的创新功能组件,有效的解决了企业级大数据数据处理和分析的各种技术难题,帮助企业快速的构建和推广数据业务。

TranswarpInceptor可提供完整的SQL支持,支持主流的SQL模块化扩展,兼容通用开发框架和工具,支持事务特性保证数据的准确性,允许多租户的隔离与管理,且能够利用内存或者SSD来加速数据的读取,支持与关系型数据库实时对接并做统计分析,辅以高性能的SQL执行引擎,为企业提供高性价比和高度可扩展的解决方案。

在Inceptor中,您可以使用常见的数据库对象,包括数据库(database),表(table),视图(view)和函数(function)。您可以使用Inceptor SQL、Inceptor PL/SQL以及Inceptor SQL PL来操作这些数据库对象。Inceptor中数据库对象的元数据保存在Inceptor Metastore中,而数据库对象内的数据可以存放在:
1.内存或者SSD中(Holodesk表)
2.HDFS中(TEXT表/ORC表/CSV表)

2 产品背景

Transwarp Data Hub (TDH)

2006年Hadoop技术的出现标志着大数据技术时代的开始,经过10多年的蓬勃发展,大数据技术已经真正承托起一大批企业的数据基础架构。经过4年的快速演进,Transwarp Data Hub(简称TDH)已成为国际一流的大数据平台。从2016年起,TDH正式成为Gartner认可的Hadoop国际主 流发行版本。

TDH是国内首个全面支持Spark的Hadoop发行版,也是国内落地案例最多的商业版本,是国内外领先的高性能平台,比开源基于Hadoop MapReduce计算框架的版本快10x~100x倍。TDH应用范围覆盖各种规模和不同数据量的企业,通过内存计算、高效索引、执行优化和高度容错的技术,使得一个平台能够处理GB级到PB级的数据,并且在每个数量级上,都能比现有技术提供更快的性能;企业客户不再需要混合架构,TDH可以伴随企业客户的数据增长,动态不停机扩容,避免MPP或混合架构数据迁移的棘手问题。

3 核心产品与架构

Transwarp Data Hub由Apache Hadoop、6款核心产品、大数据开发工具集Studio、安全管控平台 Guardian和管理服务Manager构成。 TDH主要提供6款核心产品:Transwarp Inceptor是大数据分析数据库,Transwarp Slipstream是实时计算引擎,Transwarp Discover专注于利用机器学习从数据提中取价值内容,Transwarp Hyperbase用于处理非结构化数据,Transwarp Search用于构建企业搜索引擎,Transwarp Sophon则是支持图形化操作的深度学习平台。通过使用TDH,企业能够更有效的利用数据构建核心商业系统,加速商业创新。

TDH产品架构图如下图所示:
这里写图片描述

4 技术优势

TDH产品的主要技术优势包括以下几个方面:
① 极致的性能与可扩展性
TDH的批处理速度是开源Hadoop的10-100倍,是MPP的5-10倍,可以对从GB到PB级的数据量实现复杂的查询和分析。TDH具有高可扩展性,用户可以通过增加集群节点数量,线性提高系统的处理能力。
② 容器技术与大数据平台
TDH支持部署于TOS之上。TOS是为大数据应用量身订做的云操作系统,基于Docker和Kubernetes,支持一键部署TDH、扩容、缩容,同时支持基于优先级的抢占式资源调度和细粒度资源分配。
③ 完整的SQL和ACID支持
Transwarp Inceptor是第一个实现完整SQL支持的Hadoop发行产品。它不仅支持SQL 2003,Oracle PL/SQL以及DB2 SQL PL,还实现了完整的ACID和CRUD功能。TDH提供JDBC和ODBC驱动连接,方便第三方工具运行于TDH之上。
④ 低延迟的流处理
Transwarp Slipstream是同时支持事件驱动和微批处理的流处理引擎,计算延迟最低可至5ms。它提供标准的SQL编程接口,还支持高可用性(HA)和Exactly-Once的语义,从而支持7x24小时的 生产业务。
⑤ 丰富的机器学习和深度学习功能
Transwarp Discover支持用户通过R语言和Python开发机器学习项目,也可以用图形化的工具做分析。深度学习平台Sophon能 帮助用户快捷的创建AI应用程序。
⑥ 大数据上的全文搜索
Transwarp Search支持通过SQL实现大数据上的秒级全文搜索,它利用层次化存储、堆外内存管理等创新性技术,极大的提高了系统的可用性。此外,Search还可以结合Inceptor提供较 强的数据分析能力。
⑦ 图形化的大数据开发工具套件
Transwarp Studio是TDH中的大数据开发工具集,包括元数据管理Governor、工作流Workflow、数据整合工具Transporter,Cube设计工具Rubik以及报表工具Pilot。用户可以使用这些图形化工具来提高大数据的开发效率,降低技术门槛。
⑧ 多样化的数据处理功能
Transwarp Hyperbase用于存储和计算结构化或非结构化数据,包括日志记录、JSON/XML文件以及二进制数据(如图像和视频)。Hyperbase底层是KV的数据库,因此其非常适合高频次的数据入库、高并发精确检索等业务。
⑨ 简易的操作和管理
Transwarp Transwarp Manager是专门用于部署、管理和运维TDH集群的组件。它支持产品一键安装、一键升级和图形化运维,并提供了预警和健康检测功能,帮助用户简化运维过程。
⑩ 统一的安全/多租户管理
Transwarp Guardian是TDH平台中实现安全控制和资源管理的中央服务平台,它支持Kerberos和LDAP认证,可以做细粒度的权限控制,并且提供租户管理功能。

【CDH】
CDH:Cloudera Data Hub
Cloudera公司的发行版,我们将该版本称为CDH(Cloudera Distribution Hadoop)。截至目前为止,CDH共有5个版本,其中,前两个已经不再更新,最近的两个,分别是CDH4在Apache Hadoop 2.0.0版本基础上演化而来的),CDH5,它们每隔一段时间便会更新一次。

Cloudera以patch level划分小版本,比如patch level为923.142表示在原生态Apache Hadoop 0.20.2基础上添加了1065个patch(这些patch是各个公司或者个人贡献的,在Hadoop jira上均有记录),其中923个是最后一个beta版本添加的patch,而142个是稳定版发行后新添加的patch。由此可见,patch level越高,功能越完备且解决的bug越多。

Cloudera版本层次更加清晰,且它提供了适用于各种操作系统的Hadoop安装包,可直接使用apt-get或者yum命令进行安装,更加省事。
CDH是由cloudera进行开发的大数据一站式平台管理解决方案,基于Hadoop生态的第三方发行版本,这样的描述相信大家还是挺难理解的,我们一起来梳理下CDH带来的改观。
在这里插入图片描述

下面对图中体系结构做些简单说明:

数据整合

flume主要是日志采集组件,可以从tomcat服务日志或者nginx日志中获取产生的日志

sqoop主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。

nfs是FreeBSD支持的文件系统中的一种,它允许网络中的计算机之间通过TCP/IP网络共享资源。在NFS的应用中,本地NFS的客户端应用可以透明地读写位于远端NFS服务器上的文件,就像访问本地文件一样。

HDFS

hdfs是一个分布式文件存储系统,可以将大量的大文件进行存储,它和其他的分布式文件系统的主要区别是它是一个高容错的系统,适合部署在廉价的机器上,并且hdfs能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。

Hbase

官网解释:
当您需要对大数据进行随机,实时读/写访问时,请使用Apache HBase™。该项目的目标是托管非常大的表 - 数十亿行X百万列 - 在商品硬件集群上。Apache HBase是一个开源的,分布式的,版本化的非关系数据库,模仿Google的Bigtable: Chang等人的结构化数据分布式存储系统。正如Bigtable利用Google文件系统提供的分布式数据存储一样,Apache HBase在Hadoop和HDFS之上提供类似Bigtable的功能。

  • 10
    点赞
  • 55
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
TDH(大数据技术栈)和CDH(克鲁德霍尔兹数据平台)是两个常用的大数据解决方案的组件集合,下面对它们的各个组件进行比较。 Hadoop环境中,TDHCDH都包括HDFS(分布式文件系统)和MapReduce(计算框架)组件。TDHCDH都支持这两个核心组件,因此在这方面它们之间没有太大差异。 在数据管理方面,TDH包括Hive、HBase和Phoenix,而CDH包括Impala和Kudu。Hive是一种基于Hadoop的数据仓库工具,HBase是一种非关系型数据库,Phoenix是HBase的SQL层。Impala和Kudu则是基于Hadoop的数据分析和存储工具。因此,TDH在数据管理方面的组件更丰富一些。 在数据处理和计算方面,TDH包括Spark和Flink,而CDH则包括Spark和Hue。Spark是一种高速通用的分布式计算引擎,Flink是一种高性能的流式处理框架,Hue是一个用于大数据查询和可视化的Web界面。因此,TDH在数据处理和计算方面的组件更多样化。 两者在安全性和监控方面都有相应的组件。TDHCDH都包括Kerberos和Ranger用于安全认证和权限管理,同时都有Cloudera Manager和Ambari用于集群监控和管理。 总体而言,TDHCDH作为大数据解决方案,都提供了完善的组件集合来支持大规模的数据存储、处理和分析。TDH在数据管理和处理方面有更多的组件选择,更适用于需要更细粒度控制和更高性能的场景。CDH则更注重易用性和可视化,更适用于快速构建和管理大数据平台的场景。选择适合自己需求的方案需要综合考虑这些因素。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值