cdh5.10新特性

最新推荐文章于 2022-04-27 20:03:48 发布

蘑菇丁

最新推荐文章于 2022-04-27 20:03:48 发布

阅读量3.2k

点赞数

分类专栏： hadoop 大数据+机器学习+oracle

hadoop 同时被 2 个专栏收录

59 篇文章 0 订阅

订阅专栏

大数据+机器学习+oracle

56 篇文章 3 订阅

订阅专栏

https://www.cloudera.com/documentation/enterprise/release-notes/topics/cdh_rn_new_in_cdh_510.html#impala_new_features

一、hbase

1.已添加复制调试功能。
2. G1垃圾收集性能得到提高
二、hive
1.自动配置所有组件的S3的Hue连接。

三、Impala
通过减少TCP / IP超时的可能性，提高高并发负载的可扩展性。配置设置accepted_cnxn_queue_depth可以向上调整，以避免大型集群上出现此类超时。
    对用于生成本地代码的机制进行了若干性能改进：
        一些涉及分析函数的查询可以更好地利用本机代码生成。
        在中间代码生成期间生成的模块被组织为在长时间运行或复杂查询的生存期期间更容易缓存和重用。
        对于具有大量列的表，COMPUTE STATS语句更有效（对于codegen阶段，时间更短），尤其是对于包含TIMESTAMP列的表。
        用于确定是否使用运行时间过滤器的逻辑更可靠，并且由于本地代码生成，评估过程本身更快。

    MT_DOP查询选项为多个Impala操作启用多线程。 Parquet表的COMPUTE STATS语句使用默认值MT_DOP = 4，以提高此数据密集型操作的节点内并行性和CPU效率。有关详细信息，请参阅MT_DOP查询选项。

    新的提示CLUSTERED允许在使用动态分区在单个语句中处理大量分区的Parquet表上进行Impala INSERT操作。数据基于分区键列排序，每个分区仅由单个主机写入，从而减少了在构建数据块时缓冲Parquet数据所需的内存量。

    新的提示SORTBY（cols）允许在Parquet表上进行Impala INSERT操作，以生成具有更好压缩性的优化输出文件，并在每个数据文件中提供更紧凑的最小/最大值范围。

    使用新的配置设置inc_stats_size_limit_bytes可以在对非常大的表运行COMPUTE INCREMENTAL STATS语句时减少目录服务器上的负载。

    Impala在查询语句中折叠很多常量表达式，而不是为每行计算它们。当使用函数来操作和格式化TIMESTAMP值（例如表达式的结果，如to_date（now（） - interval 1 day）时，此优化尤其有用。

    复杂表达式的解析更快。对于包含大型CASE表达式的查询，此加速特别有用。

    对于具有许多常数参数的IN运算符，评估更快。相同的性能改进适用于具有许多常数参数的其他函数。

    Impala优化多个OR块中的相同的比较运算符。

    轮廓输出中的挂钟时间和总CPU时间的报告更准确。

    新的查询选项SCRATCH_LIMIT允许您限制查询超过内存限制时使用的空间量，并激活“溢出到磁盘”机制。此选项有助于避免失控查询或使查询“失败快速”，如果他们需要更多的内存超过预期。您可以防止失控查询使用过多的溢出空间，而无需重新启动集群以完全关闭溢出功能。有关详细信息，请参见SCRATCH_LIMIT查询选项。

与Apache Kudu集成：

    对Kudu存储层的实验性Impala支持已折叠到Impala主要开发分支中。 Impala现在可以直接访问Kudu表，开辟新功能，如增强DML操作和连续提取。

    DELETE语句是一种从Kudu表中删除数据的灵活方法。以前，从Impala表中删除数据涉及删除或重写基础数据文件，删除整个分区或重写整个表。此Impala语句仅适用于Kudu表。

    UPDATE语句是一种灵活的方式来修改Kudu表中的数据。以前，更新Impala表中的数据涉及替换基础数据文件，删除整个分区或重写整个表。此Impala语句仅适用于Kudu表。

    UPSERT语句是一种灵活的方式，用于在Kudu表中摄取，修改或同时获取这两个数据。以前，摄取可能包含重复的数据涉及低效的多阶段操作，并且没有针对重复数据的内置保护。 UPSERT语句结合Kudu表的主键指定，允许在单个操作中添加或替换行，并自动避免创建任何重复数据。

    CREATE TABLE语句获得特定于Kudu表的一些新子句：PARTITION BY，PARTITIONS，STORED AS KUDU和列属性PRIMARY KEY，NULL和NOT NULL，ENCODING，COMPRESSION，DEFAULT和BLOCK_SIZE。这些子句替换Impala和Kudu之间集成的早期实验阶段所需的显式TBLPROPERTIES设置。

ALTER TABLE语句可以更改Kudu表的某些属性。您可以添加，删除或重命名列。您可以添加或删除范围分区。您可以更改TBLPROPERTIES值以重命名或指向不同的底层Kudu表，而与metastore数据库中的Impala表名无关。您不能更改Kudu表中现有列的数据类型。

    SHOW PARTITIONS语句显示有关Kudu表中分区之间的数据分布的信息。一个新的变体，SHOW RANGE PARTITIONS，显示关于Kudu特定分区的信息，这些分区适用于键值范围。

    并非所有Impala数据类型都支持Kudu表。特别地，目前在Kudu表中不允许Impala TIMESTAMP类型。 Impala在Kudu表中存在时不会识别UNIXTIME_MICROS Kudu类型。（日期/时间数据的这两种表示使用不同的单位，并且不直接兼容。）不能在Kudu表中创建类型TIMESTAMP，DECIMAL，VARCHAR或CHAR的列。在查询中，您可以将结果集中的值转换为这些类型。某些类型（如BOOLEAN）不能用作主键列。

    目前，Kudu表在Impala和Hive之间不可互换，其他类型的Impala表是。尽管Kudu表的元数据存储在Metastore数据库中，但当前Hive无法访问Kudu表。

    INSERT语句适用于Kudu表。 Kudu数据的组织使其比使用HDFS支持的表更高效地插入小批量的数据，例如使用INSERT ... VALUES语法。

    为了数据治理的目的，记录了一些审计数据。所有UPDATE，DELETE和UPSERT语句在审计日志中都表示为INSERT操作。目前，不会为Kudu表上的UPDATE和DELETE操作生成沿袭元数据。
    目前，Kudu表对Sentry的支持有限：

        访问Kudu表必须像往常一样授予角色。
        目前，通过Sentry访问Kudu表是“全有或全无”。您不能执行更细粒度的权限，例如在列级别，或某些操作（例如INSERT）的权限。

        只有在SERVER上具有所有特权的用户才能创建外部Kudu表。
    因为非SQL API可以访问Kudu数据而无需经过Sentry授权，因此目前Sentry支持被认为是初步的。

    Impala查询中的Equality和IN谓词被推送到Kudu，并由Kudu存储层进行有效的求值。

安全：

    Impala可以利用S3加密的凭证存储，以避免在访问存储在S3上的数据时泄露密钥。

REFRESH语句现在更新有关HDFS块位置的信息。因此，您可以在执行HDFS重新平衡操作后执行快速有效的刷新，而不是更昂贵的INVALIDATE METADATA语句。

[IMPALA-1654]几种DDL操作现在可以在一系列分区上工作。可以使用诸如<，> =和！=之类的运算符来指定分区，而不仅仅是应用于单个分区的等式谓词。此新功能扩展了ALTER TABLE语句（DROP PARTITION，SET [UN] CACHED，SET FILEFORMAT | SERDEPROPERTIES | TBLPROPERTIES），SHOW FILES语句和COMPUTE INCREMENTAL STATS语句的多个子句的语法。它不适用于定义为仅应用于单个分区的语句，例如LOAD DATA，ALTER TABLE ... ADD PARTITION，SET LOCATION和使用静态分区子句的INSERT。

instr（）函数具有可选的第二和第三个参数，表示要开始搜索子字符的位置的字符，以及要查找的子字符串的第N次出现。

改进了格式错误的Avro数据的错误处理。特别地，现在处理DECIMAL类型的不正确的精度或缩放。

Impala调试Web UI：

    除了“飞行”和“完成”查询之外，Web UI现在还包括用于“排队”查询的部分。

    / sessions选项卡现在说明显示的部分中有多少是活动的，并允许您按过期状态进行排序，以区分活动会话和过期会话。

提高了DDL操作（如CREATE DATABASE或DROP DATABASE）与Impala INVALIDATE METADATA语句同时在Hive中运行时的稳定性。

“内存不足”错误报告更加用户友好，附加诊断信息有助于识别超出内存限制的位置。

基于Java的UDF的磁盘空间使用增加。不再需要时，将删除关联的JAR文件的临时副本，以使它们不会在catalogd守护程序的重新启动过程中累积，并可能导致空间不足的情况。这些临时文件也在local_library_dir配置设置指定的目录中创建，以便这些临时文件的存储可以独立于/ tmp文件系统上的任何容量限制.

四、oozie
OOZIE-2225除了过滤器参数名称，用户，组，状态，频率和单位之外，Oozie现在支持与部分名称，部分用户或完整ID匹配的通配符参数。
例如，具有text ='asdf'的查询将返回满足以下任意条件的所有作业。

     job.name.contains（text）
     job.user.contains（text）
     job.id = text

五、Cloudera搜索
     solrctl命令可以使用--debug或--trace参数在调试模式下运行。

六、yarn方面
在YARN动态资源池中为每个用户公开maxResources
     YARN动态资源池现在支持自动应用于任何资源池的所有子池的默认容量限制（最大资源）。您可以通过在父池上配置这些设置来控制集群上任何用户或组可用的YARN资源，然后使用放置规则为每个用户或组自动创建子池。
     UX改进
     改进包括：
         现在可以单击每个输入行，并将用户转到编辑对话框中的该输入字段。
         将分钟（最小/最大）和内存（最小/最大）分成最小资源和最大资源。
         将“配置集”选项卡重命名为“资源限制”。