北京时间2018年12月19日,Cloudera正式发布Cloudera Enterprise 6.1.0,上次发布CDH6.0是8月30日,差不多过去了3个多月的时间,参考Fayson之前的文章《Cloudera Enterprise 6正式发布》。从CDH6.0到CDH6.1是一次minor version的更新,但更新内容较多,在开始接下来的细化功能讨论前,我们先看看几项重点更新的内容:
1.组件版本:Kafka 2.0, Spark 2.4, HBase 2.1.1, Accumulo 1.9.2, SOLR 7.4
2.CDH免费版限制100个节点内
3.HDFS的纠删码完全支持,包括Hive,Navigator(auditing),BDR,MR,Spark
4.对象存储支持:On-prem (Ceph), Cloud (ADLS gen 2)
5.Impala的多个distinct语句支持
6.Sqoop的HiveServer2与导入Parquet文件支持
7.OpenJDK支持
1
CDH6.1的新功能
1.1
Hadoop各版本说明
组件 | 组件描述 | 版本 |
---|---|---|
Hadoop | 可靠的,可扩展的,分布式的存储和计算平台 | v3.0.0 |
HBase | 实时读写访问的可扩展的记录和表的存储 | v2.1.1 |
Hive | 具备类SQL接口和ODBC/JDBC驱动的元数据知识库连接BI应用和Hadoop | v2.1.1 |
Hue | 遵循Apache许可协议的基于浏览器的桌面Hadoop接口 | v3.9.0 |
Impala | 遵循Apache许可协议的、针对存放在HDFS和HBase数据的实时SQL查询引擎 | v3.1.0 |
Kafka | 高度可扩展的、容错的发布订阅制消息系统 | V2.0.0 |
Mahout | Hadoop的机器算法的库 | v0.9 |
Yarn | Hadoop各组件资源协调 | V3.0.0 |
Flume | 收集和聚合日志和事件数据,实时流写入HDFS或HBase的分布式框架 | v1.8.0 |
Pig | 处理存放在Hadoop里的数据的高级数据流语言 | v0.17.0 |
Solr | 文本、模糊数学和分面搜索引擎 | v7.4.0 |
Spark | 支持循环数据流和内存计算的高速通用数据处理引擎 | v2.4 |
Sqoop | 为集成Hadoop和关系数据库的数据传输引擎 | v1.4.7 |
Zookeeper | 高可靠的分布式协同服务 | v3.4.5 |
Kudu | 一种新的列式存储 | V1.8 |
1.2
Apache Flume
1.Flume JMS支持TLS连接,包括客户端的证书身份认证。参考:
https://www.cloudera.com/documentation/enterprise/6/6.1/topics/sg_flume_thrift_ssl.html#concept_flume_jms_ssl
2.Flume支持Auto-TLS,参考:
https://www.cloudera.com/documentation/enterprise/6/6.1/topics/sg_flume_thrift_ssl.html#flume_ssl
1.3
HDFS
1.3.1
ADLS Gen2 Preview
CDH支持使用ADLS Gen2作为存储,同时计算引擎支持MapReduce, Hive on MapReduce, Hive on Spark,Spark, Oozie和Impala。ADLS Gen2目前尚处于预览阶段,查看预览状态你需要查阅ADLS Gen2的文档。如果要查看如何配置CDH和ADLS Gen2,可以参考:
https://www.cloudera.com/documentation/enterprise/6/release-notes/topics/admin_adls2_config.html#admin_adls_config_overview
1.3.2
CacheReplicationMonitor
你可以在Advanced Configuration Snippet (SafetyValve) for hdfs-site.xml: dfs.namenode.caching.enabled中禁用CacheReplicationMonitor。为了保持向后兼容性,默认这个值是true即开启缓存,如果要禁用则设置为false。
1.3.3
纠删码
CDH6.1支持纠删码(Erasure Coding,EC)。EC是HDFS默认三副本的替代方式。当HDFS集群启用EC后,不需要额外的数据副本复制,数据会被条带化成block然后加密生成校验block。如果有block丢失或者损坏,HDFS会在后台使用剩下的原始数据和校验block重新生成丢失的部分。这种方式跟3副本方式提供相同的数据持久性,但是会大大降低存储成本。参考:
https://www.cloudera.com/documentation/enterprise/6/latest/topics/admin_hdfs_datadurability.html#xd_583c10bfdbd326ba-7dae4aa6-147c30d0933--7f0a
1.3.4
快照
现在可以使用ClouderaManager为HDFS启用不可变快照(immutable snapshot)。启用此功能同时为BDR启用基于快照差异的拷贝列表。登录到Cloudera Manager,导航到Clusters > Configuration,然后搜索Enable Immutable Snapshots。该功能默认是关闭的。
1.4
Apache HBase
1.4.1
Web UI中WAL Groups的HBase Replication状态
Web UI中增加了一个新的区域以显示replication的状态:
1.Peers:显示所有的replication peers和它们的配置,包括peer id,cluster key,状态,带宽,现有日志的大小,日志队列大小,replication偏移量和复制的namespace和表。
2.Replication status of all Region Server:显示replication的延迟,包括每个RegionServer的AgeOfLastShippedOp, SizeOfLogQueue和ReplicationLag。
如果replication偏移量显示-1并且replication延迟为UNKNOWN,则表示replication没有启动。有两个常见的原因:peer已经禁用或者replicationEndpoint正在休眠。
1.4.2
Default Behavior Change
HBASE-20856:默认情况下,meta WAL provider (hbase.wal.meta_provier)设置为与普通的WAL(hbase.wal.provider)相同。
1.5
Apache Hive
1.5.1
纠删码支持
你现在可以为Hive中不常访问的表和分区启用EC,参考:
https://www.cloudera.com/documentation/enterprise/6/release-notes/topics/erasure_coding_with_hive.html#erasure_coding_hive
1.5.2
Hive Web UI的查询计划图表视图
你现在可以在一个可视化图表上查看查询计划。了解如何理解查询计划,跟踪MapReduce进度,轻松查明错误可以参考:
https://www.cloudera.com/documentation/enterprise/6/6.1/topics