Cloudera(CDH) 简介和在线安装

最新推荐文章于 2024-07-24 17:25:05 发布

Kim_Weir

最新推荐文章于 2024-07-24 17:25:05 发布

阅读量2.3w

点赞数 8

文章标签： cloudera

本文链接：https://blog.csdn.net/Kim_Weir/article/details/79934308

版权

Cloudera 简介

Cloudera 官网：https://www.cloudera.com
Cloudera 官方文档： https://www.cloudera.com/documentation/enterprise/latest.html

CDH是Apache Hadoop和相关项目的最完整，经过测试的流行发行版。 CDH提供了Hadoop的核心元素 - 可扩展的存储和分布式计算 - 以及基于Web的用户界面和重要的企业功能。 CDH是Apache许可的开放源码，是唯一提供统一批处理，交互式SQL和交互式搜索以及基于角色的访问控制的Hadoop解决方案。

Cloudera作为一个强大的商业版数据中心管理工具，提供了各种能够快速稳定运行的数据计算框架，如Apache Spark；使用Apache Impala做为对HDFS，HBase的高性能SQL查询引擎；也带了Hive数据仓库工具帮助用户分析数据; 用户也能用Cloudera管理安装HBase分布式列式NoSQL数据库；Cloudera还包含了原生的Hadoop搜索引擎以及Cloudera Navigator Optimizer去对Hadoop上的计算任务进行一个可视化的协调优化，提高运行效率；同时Cloudera中提供的各种组件能让用户在一个可视化的UI界面中方便地管理，配置和监控Hadoop以及其它所有相关组件，并有一定的容错容灾处理；Cloudera作为一个广泛使用的商业版数据中心管理工具更是对数据的安全决不妥协！

CDH 提供：

灵活性 - 存储任何类型的数据，并使用各种不同的计算框架进行处理，包括批处理，交互式SQL，自由文本搜索，机器学习和统计计算。
集成 - 在一个可与广泛的硬件和软件解决方案配合使用的完整Hadoop平台上快速启动并运行。
安全 - 过程和控制敏感数据。
可扩展性 - 启用广泛的应用程序并进行扩展和扩展，以满足您的需求。
高可用性 - 充满信心地执行关键业务任务。
兼容性 - 利用您现有的IT基础设施和资源。

这里写图片描述

上述描述来自：https://www.cloudera.com/documentation/enterprise/latest/topics/cdh_intro.html

1.CDH中的Apache Hive概述

Hive数据仓库软件支持在分布式存储中读取，编写和管理大型数据集。使用与SQL非常相似的Hive查询语言（HiveQL），查询被转换为一系列作业通过MapReduce或Apache Spark在Hadoop集群上执行。

用户可以使用Hive运行批处理工作负载，同时还可以在单个平台内使用Apache Impala或Apache Spark等工具分析交互式SQL或机器学习工作负载的相同数据。

作为CDH的一部分，Hive还受益于：

统一资源管理由YARN提供
Cloudera Manager提供简化的部署和管理
共享安全和治理，以满足Apache Sentry和Cloudera Navigator提供的合规要求

Hive的用例

由于Hive是一个基于Hadoop平台构建的PB级数据仓库系统，因此对于数据量急剧增长的环境而言，它是一个不错的选择。HDFS底层MapReduce接口很难直接编程，但Hive提供了一个SQL接口，可以使用现有的编程技巧来执行数据准备。

Hive MapReduce或Spark最适合批量数据准备或ETL：

必须运行具有非常大的ETL排序并使用连接的计划批处理作业来为Hadoop准备数据。向Impala中BI用户提供的大部分数据由ETL开发人员使用Hive编写。
可以运行花费数小时的数据传输或转换作业。通过Hive，如果通过这样的工作发生问题，它会恢复并继续。
可以接收或提供不同格式的数据，其中Hive SerDes和各种UDF可以方便地获取和转换数据。通常，Hive的ETL过程的最后阶段可能是高性能，广泛支持的格式，例如Parquet。

Hive组件

Hive由以下组件组成：

Metastore数据库

Metastore数据库是Hive基础架构的一个重要方面。它是一个独立的数据库，依赖于传统的RDBMS，例如MySQL或PostgreSQL，它保存有关Hive数据库，表，列，分区和Hadoop特定信息（例如底层数据文件和HDFS块位置）的元数据。

Metastore数据库由其他组件共享。例如，Hive和Impala都可以插入，查询，更改等相同的表。尽管您可能会看到对“Hive metastore”的引用，但请注意，即使在您未使用Hive本身的情况下，Metastore数据库也会广泛用于Hadoop生态系统。

Metastore数据库相对紧凑，数据快速变化。备份，复制和其他类型的管理操作会影响此数据库。

HiveServer2

HiveServer2是一个服务器接口，它使远程客户端能够向Hive提交查询并检索结果。它取代了HiveServer1（它已被弃用，并将在未来的CDH版本中被删除）。HiveServer2支持多客户端并发，容量规划控制，Sentry授权，Kerberos身份验证，LDAP和SSL，并为JDBC和ODBC客户端提供更好的支持。

HiveServer2是Hive执行引擎的容器。对于每个客户端连接，它会创建一个新的执行上下文，用于向客户端提供Hive SQL请求。它支持JDBC客户端，例如Beeline CLI和ODBC客户端。客户端通过基于Thrift API的Hive服务连接到HiveServer2。