cloudera manager5.13版本更新信息

最新推荐文章于 2024-07-01 08:30:00 发布

yunhao.wei

最新推荐文章于 2024-07-01 08:30:00 发布

阅读量1.7k

点赞数

分类专栏：数据平台文章标签： cm

本文链接：https://blog.csdn.net/weixin_39478115/article/details/78878788

版权

数据平台专栏收录该内容

16 篇文章 0 订阅

订阅专栏

概括新功能

1.Sentry实现HA
2.Kafka0.11集成，0.11目前为社区最新版
3.Kudu1.5开始默认打包到CDH，不需要使用额外的Parcle安装
4.Kudu与Sentry授权集成，支持列授权
据说CDSW1.2发布，与CM完美集成，实现Parcel安装
Openstack支持，Ceph支持，架构更新，参考：
http://www.cloudera.com/documentation/other/reference-architecture/PDF/cloudera_ref_arch_redhat_osp11.pdf
https://specs.openstack.org/openstack/sahara-specs/specs/juno/cdh-plugin.html

CDH5.13和CM5.13具体的更新内容

1.1 Apache Impala

1.通过缓冲池改善内存管理。这种机制允许查询使用较少的内存，在查询启动期间保留所需的内存，并减少OOM的概率。它使查询计划和内存评估更加精准，因此如果一个查询开始执行，中间不太可能会遇到OOM的错误。Impala在溢出到磁盘期间使用内存缓冲区较小，此缓冲区默认是2MB，而不是8MB，同时Impala可以在适当的时候将其减少到64KB。

对于新的查询的内存微调可以使用的参数包括：MIN_SPILLABLE_BUFFER_SIZE,DEFAULT_SPILLABLE_BUFFER_SIZE,MAX_ROW_SIZE,和BUFFER_POOL_LIMIT。

2.改进缓存HDFS文件句柄的机制。这种缓存机制提高了多次访问同一文件的查询性能和扩展性，比如从Parquet文件中检索不同的列。通过open()调用缓存文件句柄可以降低Namenode的负载。

默认情况下，此功能是被禁用的。可以通过给max_cached_file_handles设置一个非零的值来开启这个功能。目前，通过关闭一些Impalad主机的short-circuit reads，在ETL过程中对于HDFS文件追加或者覆盖可以使用到这个功能。查看HDFS-12528获取更多信息：https://issues.apache.org/jira/browse/HDFS-12528

3.impala-shell提供了一个新的命令，rerun或者简写@，可以让你根据历史命令的编号来重新执行。

4.新的内置函数和更新
除了TIMESTAMP之外，trunc()现在可以应用于数值类型（FLOAT，DOUBLE和DECIMAL）。虽然这个功能已经可以通过truncate()函数实现，但是trunc()的改进可以更方便的将主流RDBMS的代码迁移到Impala。
select TRUNC(15.79,1)
15.7

新的date/time函数utc_timestamp()可以从TIMESTAMP的值获取到准确的相应时间，而不需要用特定的时区通过一些其他的函数来转换。

5.CREATE TABLE LIKE PARQUET语句现在可以处理不是由Impala生成的包含ENUM类型的Parquet文件。ENUM列会在目标表中转变为相应的STRING列。

6.Kudu提升
Kudu现在建表可以不使用PARTITION BY。Kudu会自动创建一个单独的分区来覆盖所有的可能的值的范围。此功能适用于小表，这样那些每个查询都是全表扫描因为分区带来的开销将不存在。

Kudu表更细粒度的Sentry授权，支持列授权。SELECT和INSERT语句对应到Sentry里的SELECT和INSERT权限。其他Kudu操作需要ALL的权限。
ALTER TABLE语句可以修改Kudu表字段的多个属性。你可以使用ALTER TABLE的ALTER COLUMN和SET关键字来更改DEFAULT，BLOCK_SIZE，ENCODING和COMPRESSION属性。还可以使用DROP DEFAULT从列中删除默认值。

7.对于非Kudu表，可以使用ALTER TABLE如：ALTER COLUMN col SET COMMENT ‘text’来更改单个列的注释。

1.2 Apache Kudu

从CDH5.13，Kudu1.5开始，CDH默认打包Kudu，不需要使用额外的Parcel安装。Kudu1.5的新功能请参考：https://www.cloudera.com/documentation/enterprise/release-notes/topics/kudu_release_notes.html#release_notes

1.3Apache Hive/Hive on Spark

Hive on Spark支持map joins的动态分区修剪。动态分区修剪（DPP）是一种数据库优化技术，它可以显着减少查询扫描的数据量，从而更快地执行作业。默认情况下禁用，但可以通过将hive.spark.dynamic.partition.pruning.map.join.only属性设置为true来启用。启用时，当使用分区字段map join时，DPP才会触发。更多细节参考：https://www.cloudera.com/documentation/enterprise/latest/topics/admin_hos_oview.html

Sentry支持Hive metastore的HA。以前的CDH版本，Sentry服务和Hive metastore的HA是不能共存的，从CDH5.13开始，Hive metastore的HA可以与Sentry服务共存，同时你还可以选择开启Sentry的HA。

1.4 Apache Sentry

从CDH5.13开始，你可以安装两个Sentry服务，并通过配置实现Sentry服务的高可用，当Primary的Sentry挂了以后，可以自动实现Sentry服务的切换。更多细节请参考：https://www.cloudera.com/documentation/enterprise/latest/topics/sg_sentry_ha.html

Sentry现在支持Hive metastore的HA。