0487-CDH6.1的新功能

Cloudera发布了CDH6.1,带来了多个组件的版本更新,如Kafka 2.0, Spark 2.4, HBase 2.1.1等。此外,CDH6.1支持HDFS的纠删码,对象存储,增强了Impala和Hive的性能与安全性,增加了细粒度权限和对象所有权。同时,Kafka的安全性得到提升,Kudu添加了多项新功能和优化,Cloudera Search基于Solr 7.4带来配置和行为变化,而Apache Sentry引入了CREATE和REFRESH权限。" 96436575,7706806,C# 实现邮件发送详解,"['C#开发', '邮件系统', '网络编程']
摘要由CSDN通过智能技术生成

北京时间2018年12月19日,Cloudera正式发布Cloudera Enterprise 6.1.0,上次发布CDH6.0是8月30日,差不多过去了3个多月的时间,参考Fayson之前的文章《Cloudera Enterprise 6正式发布》。从CDH6.0到CDH6.1是一次minor version的更新,但更新内容较多,在开始接下来的细化功能讨论前,我们先看看几项重点更新的内容:

1.组件版本:Kafka 2.0, Spark 2.4, HBase 2.1.1, Accumulo 1.9.2, SOLR 7.4

2.CDH免费版限制100个节点内

3.HDFS的纠删码完全支持,包括Hive,Navigator(auditing),BDR,MR,Spark

4.对象存储支持:On-prem (Ceph), Cloud (ADLS gen 2)

5.Impala的多个distinct语句支持

6.Sqoop的HiveServer2与导入Parquet文件支持

7.OpenJDK支持

1

CDH6.1的新功能

1.1

Hadoop各版本说明

组件 组件描述 版本
Hadoop 可靠的,可扩展的,分布式的存储和计算平台 v3.0.0
HBase 实时读写访问的可扩展的记录和表的存储 v2.1.1
Hive 具备类SQL接口和ODBC/JDBC驱动的元数据知识库连接BI应用和Hadoop v2.1.1
Hue 遵循Apache许可协议的基于浏览器的桌面Hadoop接口 v3.9.0
Impala 遵循Apache许可协议的、针对存放在HDFS和HBase数据的实时SQL查询引擎 v3.1.0
Kafka 高度可扩展的、容错的发布订阅制消息系统 V2.0.0
Mahout Hadoop的机器算法的库 v0.9
Yarn Hadoop各组件资源协调 V3.0.0
Flume 收集和聚合日志和事件数据,实时流写入HDFS或HBase的分布式框架 v1.8.0
Pig 处理存放在Hadoop里的数据的高级数据流语言 v0.17.0
Solr 文本、模糊数学和分面搜索引擎 v7.4.0
Spark 支持循环数据流和内存计算的高速通用数据处理引擎 v2.4
Sqoop 为集成Hadoop和关系数据库的数据传输引擎 v1.4.7
Zookeeper 高可靠的分布式协同服务 v3.4.5
Kudu 一种新的列式存储 V1.8

1.2

Apache Flume

1.Flume JMS支持TLS连接,包括客户端的证书身份认证。参考:

https://www.cloudera.com/documentation/enterprise/6/6.1/topics/sg_flume_thrift_ssl.html#concept_flume_jms_ssl

2.Flume支持Auto-TLS,参考:

https://www.cloudera.com/documentation/enterprise/6/6.1/topics/sg_flume_thrift_ssl.html#flume_ssl

1.3

HDFS

1.3.1

ADLS Gen2 Preview

CDH支持使用ADLS Gen2作为存储,同时计算引擎支持MapReduce, Hive on MapReduce, Hive on Spark,Spark, Oozie和Impala。ADLS Gen2目前尚处于预览阶段,查看预览状态你需要查阅ADLS Gen2的文档。如果要查看如何配置CDH和ADLS Gen2,可以参考:

https://www.cloudera.com/documentation/enterprise/6/release-notes/topics/admin_adls2_config.html#admin_adls_config_overview

1.3.2

CacheReplicationMonitor

你可以在Advanced Configuration Snippet (SafetyValve) for hdfs-site.xml: dfs.namenode.caching.enabled中禁用CacheReplicationMonitor。为了保持向后兼容性,默认这个值是true即开启缓存,如果要禁用则设置为false。

1.3.3

纠删码

CDH6.1支持纠删码(Erasure Coding,EC)。EC是HDFS默认三副本的替代方式。当HDFS集群启用EC后,不需要额外的数据副本复制,数据会被条带化成block然后加密生成校验block。如果有block丢失或者损坏,HDFS会在后台使用剩下的原始数据和校验block重新生成丢失的部分。这种方式跟3副本方式提供相同的数据持久性,但是会大大降低存储成本。参考:

https://www.cloudera.com/documentation/enterprise/6/latest/topics/admin_hdfs_datadurability.html#xd_583c10bfdbd326ba-7dae4aa6-147c30d0933--7f0a

1.3.4

快照

现在可以使用ClouderaManager为HDFS启用不可变快照(immutable snapshot)。启用此功能同时为BDR启用基于快照差异的拷贝列表。登录到Cloudera Manager,导航到Clusters > Configuration,然后搜索Enable Immutable Snapshots。该功能默认是关闭的。

1.4

Apache HBase

1.4.1

Web UI中WAL Groups的HBase Replication状态

Web UI中增加了一个新的区域以显示replication的状态:

1.Peers:显示所有的replication peers和它们的配置,包括peer id,cluster key,状态,带宽,现有日志的大小,日志队列大小,replication偏移量和复制的namespace和表。

2.Replication status of all Region Server:显示replication的延迟,包括每个RegionServer的AgeOfLastShippedOp, SizeOfLogQueue和ReplicationLag。

如果replication偏移量显示-1并且replication延迟为UNKNOWN,则表示replication没有启动。有两个常见的原因:peer已经禁用或者replicationEndpoint正在休眠。

1.4.2

Default Behavior Change

HBASE-20856:默认情况下,meta WAL provider (hbase.wal.meta_provier)设置为与普通的WAL(hbase.wal.provider)相同。

1.5

Apache Hive

1.5.1

纠删码支持

你现在可以为Hive中不常访问的表和分区启用EC,参考:

https://www.cloudera.com/documentation/enterprise/6/release-notes/topics/erasure_coding_with_hive.html#erasure_coding_hive

1.5.2

Hive Web UI的查询计划图表视图

你现在可以在一个可视化图表上查看查询计划。了解如何理解查询计划,跟踪MapReduce进度,轻松查明错误可以参考:

https://www.cloudera.com/documentation/enterprise/6/6.1/topics
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值