Hive之set参数大全-20

最新推荐文章于 2024-08-20 19:32:58 发布

OnePandas

最新推荐文章于 2024-08-20 19:32:58 发布

阅读量1.1k

点赞数 21

分类专栏： Hive 文章标签： hive 数据仓库

本文链接：https://blog.csdn.net/m0_49620121/article/details/135896789

版权

Hive 专栏收录该内容

24 篇文章 3 订阅

订阅专栏

指定在执行大表半连接操作时的最小表大小，以决定是否启用半连接操作的优化

在 Hive 中，hive.tez.bigtable.minsize.semijoin.reduction 是一个配置参数，用于指定在执行大表半连接操作时的最小表大小，以决定是否启用半连接操作的优化。以下是有关该参数的一些解释：

用途： 该参数用于半连接操作的优化。半连接是一种连接操作，其中一个表较小，而另一个表较大。当大表的大小超过一定阈值时，可以选择启用优化，以减少数据传输和提高查询性能。
默认值： 默认情况下，hive.tez.bigtable.minsize.semijoin.reduction 的值通常是未设置或设置为 -1，表示默认情况下未启用半连接操作的优化。
配置方法： 你可以通过 Hive 的配置文件或者在 Hive 命令行中使用 SET 命令来配置这个参数。例如：
```
SET hive.tez.bigtable.minsize.semijoin.reduction=10000000;
```
可选值： 该参数通常是一个整数，表示启用半连接操作优化的最小大表大小。如果设置为负值，表示禁用优化。
影响： 该参数影响 Hive 在执行大表半连接操作时是否启用优化。如果大表的大小超过指定的阈值，Hive 将尝试使用半连接操作的优化。
注意事项：
- 半连接操作的优化通常用于减少数据传输，提高查询性能。
- 需要根据实际情况设置合适的阈值，以平衡优化的效果和额外的计算开销。
- 具体的优化算法和因素可能会根据 Hive 的版本而有所不同。

示例：

-- 设置半连接操作优化的最小大表大小为 10,000,000 行
SET hive.tez.bigtable.minsize.semijoin.reduction=10000000;

请注意，具体的配置和效果可能会根据 Hive 的版本以及其他环境因素而有所不同。在进行更改之前，建议查阅相应版本的官方文档以获取最准确的信息。

指定在 Tez 执行引擎中使用布隆过滤器时的因子（factor）

在 Hive 中，hive.tez.bloom.filter.factor 是一个配置参数，用于指定在 Tez 执行引擎中使用布隆过滤器时的因子（factor）。以下是有关该参数的一些解释：

用途： 该参数用于控制 Tez 执行引擎在使用布隆过滤器时的配置。布隆过滤器是一种数据结构，用于快速判断一个元素是否属于一个集合。
默认值： 默认情况下，hive.tez.bloom.filter.factor 的值通常是 0.5，表示默认情况下使用布隆过滤器时的因子为 0.5。
配置方法： 你可以通过 Hive 的配置文件或者在 Hive 命令行中使用 SET 命令来配置这个参数。例如：
```
SET hive.tez.bloom.filter.factor=0.3;
```
可选值： 该参数通常是一个浮点数，表示在使用布隆过滤器时的因子。因子的具体含义可能因实现而异，但通常用于调整布隆过滤器的容量和性能。
影响： 该参数影响 Tez 执行引擎在使用布隆过滤器时的性能和资源消耗。通过调整因子，可以在减少内存占用和提高查询性能之间进行权衡。
注意事项：
- 布隆过滤器的因子通常用于调整过滤器的误报率和内存占用。
- 需要根据实际需求和查询特性调整该参数的值。
- 具体的因子设置可能会根据 Hive 的版本和底层库的实现而有所不同。

示例：

-- 设置使用布隆过滤器时的因子为 0.3
SET hive.tez.bloom.filter.factor=0.3;

指定在执行 Tez MapJoin 时是否使用子缓存（sub-cache）

在 Hive 中，hive.tez.bmj.use.subcache 是一个配置参数，用于指定在执行 Tez MapJoin 时是否使用子缓存（sub-cache）。以下是有关该参数的一些解释：

用途： 该参数用于控制 Tez MapJoin 在执行过程中是否使用子缓存。MapJoin 是一种连接操作，其中一个表的小表被加载到内存中，并与另一个大表进行连接。
默认值： 默认情况下，hive.tez.bmj.use.subcache 的值通常是 false，表示默认情况下不使用子缓存。
配置方法： 你可以通过 Hive 的配置文件或者在 Hive 命令行中使用 SET 命令来配置这个参数。例如：
```
SET hive.tez.bmj.use.subcache=true;
```
可选值： 该参数通常是一个布尔值，表示在 Tez MapJoin 执行时是否使用子缓存。
影响： 该参数影响 Tez MapJoin 在执行过程中是否使用子缓存。使用子缓存可以提高 MapJoin 的性能，特别是在小表缓存的情况下。
注意事项：
- MapJoin 使用子缓存可以减少内存的占用，提高性能，特别是在小表连接时。
- 在某些场景下，使用子缓存可能会导致性能下降，具体效果可能取决于表的大小和连接条件。
- 需要根据实际查询的特性和数据量来选择是否使用子缓存。

示例：

-- 设置在 Tez MapJoin 执行时使用子缓存
SET hive.tez.bmj.use.subcache=true;

是否启用 Tez 执行引擎中的桶裁剪（bucket pruning）

在 Hive 中，hive.tez.bucket.pruning 是一个配置参数，用于指定是否启用 Tez 执行引擎中的桶裁剪（bucket pruning）。以下是有关该参数的一些解释：

用途： 该参数用于控制 Tez 执行引擎是否启用桶裁剪。桶裁剪是一种优化技术，用于在执行连接操作时，仅处理那些包含匹配键的桶，从而减少计算和提高性能。
默认值： 默认情况下，hive.tez.bucket.pruning 的值通常是 false，表示默认情况下不启用桶裁剪。
配置方法： 你可以通过 Hive 的配置文件或者在 Hive 命令行中使用 SET 命令来配置这个参数。例如：
```
SET hive.tez.bucket.pruning=true;
```
可选值： 该参数通常是一个布尔值，表示是否启用 Tez 执行引擎中的桶裁剪。
影响： 该参数影响 Tez 执行引擎在执行连接操作时是否使用桶裁剪。启用桶裁剪可以提高连接操作的性能，尤其是当连接的表中有很多桶时。
注意事项：
- 桶裁剪适用于连接操作，其中一个或两个表都使用了桶存储，并且连接键是桶列。
- 在某些情况下，桶裁剪可能并不总是带来性能提升，具体效果可能取决于表的分桶方式和数据分布情况。
- 需要根据实际查询的特性和数据量来选择是否启用桶裁剪。

示例：

-- 启用 Tez 执行引擎中的桶裁剪
SET hive.tez.bucket.pruning=true;

是否启用与旧版本 Tez 兼容的桶裁剪

在 Hive 中，hive.tez.bucket.pruning.compat 是一个配置参数，用于指定是否启用与旧版本 Tez 兼容的桶裁剪。以下是有关该参数的一些解释：

用途： 该参数用于启用与旧版本 Tez 兼容的桶裁剪。桶裁剪是一种优化技术，用于在执行连接操作时，仅处理那些包含匹配键的桶，从而减少计算和提高性能。
默认值： 默认情况下，hive.tez.bucket.pruning.compat 的值通常是 false，表示默认情况下不启用与旧版本 Tez 兼容的桶裁剪。
配置方法： 你可以通过 Hive 的配置文件或者在 Hive 命令行中使用 SET 命令来配置这个参数。例如：
```
SET hive.tez.bucket.pruning.compat=true;
```
可选值： 该参数通常是一个布尔值，表示是否启用与旧版本 Tez 兼容的桶裁剪。
影响： 该参数影响 Tez 执行引擎在执行连接操作时是否使用旧版本的桶裁剪逻辑。启用与旧版本 Tez 兼容的桶裁剪可能会提高连接操作的性能。
注意事项：
- 与旧版本 Tez 兼容的桶裁剪适用于使用旧版本 Tez 的情况，以确保在新版本中保持与旧版本相同的行为。
- 在新版本 Tez 中，通常会使用更先进的桶裁剪逻辑，因此可能不需要启用与旧版本 Tez 兼容的桶裁剪。
- 需要根据实际查询的特性和数据量来选择是否启用该参数。

示例：

-- 启用与旧版本 Tez 兼容的桶裁剪
SET hive.tez.bucket.pruning.compat=true;

是否启用 Tez 执行引擎中的笛卡尔积操作

在 Hive 中，hive.tez.cartesian-product.enabled 是一个配置参数，用于指定是否启用 Tez 执行引擎中的笛卡尔积操作。以下是有关该参数的一些解释：

用途： 该参数用于控制 Tez 执行引擎在执行查询时是否启用笛卡尔积操作。笛卡尔积是一种连接操作，它返回两个表中所有可能的行组合。
默认值： 默认情况下，hive.tez.cartesian-product.enabled 的值通常是 false，表示默认情况下不启用笛卡尔积操作。
配置方法： 你可以通过 Hive 的配置文件或者在 Hive 命令行中使用 SET 命令来配置这个参数。例如：
```
SET hive.tez.cartesian-product.enabled=true;
```
可选值： 该参数通常是一个布尔值，表示是否启用 Tez 执行引擎中的笛卡尔积操作。
影响： 该参数影响 Tez 执行引擎在执行查询时是否允许笛卡尔积操作。启用笛卡尔积可能会导致非常大的结果集，因此需要谨慎使用。
注意事项：
- 笛卡尔积是一种计算密集型的操作，可能导致性能下降和资源消耗增加。
- 启用笛卡尔积时，需要确保查询的结果集不会过大，以避免性能问题。
- 在大多数情况下，不建议启用笛卡尔积，除非确实需要这种操作。

示例：

-- 启用 Tez 执行引擎中的笛卡尔积操作
SET hive.tez.cartesian-product.enabled=true;

指定 Tez 执行引擎中每个容器的最大 Java 堆内存的分数

在 Hive 中，hive.tez.container.max.java.heap.fraction 是一个配置参数，用于指定 Tez 执行引擎中每个容器的最大 Java 堆内存的分数。以下是有关该参数的一些解释：

用途： 该参数用于控制 Tez 执行引擎中每个容器的最大 Java 堆内存占整个容器内存的比例。
默认值： 默认情况下，hive.tez.container.max.java.heap.fraction 的值通常是 0.8，表示默认情况下每个 Tez 容器的最大 Java 堆内存占整个容器内存的80%。
配置方法： 你可以通过 Hive 的配置文件或者在 Hive 命令行中使用 SET 命令来配置这个参数。例如：
```
SET hive.tez.container.max.java.heap.fraction=0.75;
```
可选值： 该参数通常是一个浮点数，表示每个 Tez 容器的最大 Java 堆内存占整个容器内存的比例。
影响： 该参数影响 Tez 执行引擎中每个容器的 Java 堆内存大小。通过调整这个参数，可以根据集群的配置和资源限制来优化 Tez 任务的性能。
注意事项：
- 需要根据集群的内存配置和资源限制来选择合适的 Java 堆内存分配比例。
- 如果分配的 Java 堆内存过大，可能导致容器启动较慢或者其他任务无法获得足够的资源。
- 可以根据实际情况动态调整这个参数以优化性能。

示例：

-- 设置每个 Tez 容器的最大 Java 堆内存占整个容器内存的比例为 0.75
SET hive.tez.container.max.java.heap.fraction=0.75;

指定 Tez 执行引擎中每个容器的大小

在 Hive 中，hive.tez.container.size 是一个配置参数，用于指定 Tez 执行引擎中每个容器的大小。以下是有关该参数的一些解释：

用途： 该参数用于控制 Tez 执行引擎中每个容器的分配内存大小。Tez 容器是执行 Tez 任务的基本执行单元。
默认值： 默认情况下，hive.tez.container.size 的值通常是未设置，由 Tez 执行引擎根据集群资源和配置动态确定。
配置方法： 你可以通过 Hive 的配置文件或者在 Hive 命令行中使用 SET 命令来配置这个参数。例如：
```
SET hive.tez.container.size=8192;
```
可选值： 该参数通常是一个整数，表示 Tez 执行引擎中每个容器的大小，单位为 MB。
影响： 该参数影响 Tez 执行引擎中每个容器的内存大小。通过调整这个参数，可以根据集群的配置和资源限制来优化 Tez 任务的性能。
注意事项：
- Tez 容器的大小应该根据集群的总内存和任务的需求来设置，以确保足够的资源用于执行任务。
- 过大或过小的容器大小都可能导致性能问题，需要根据实际情况进行调整。
- 如果未设置该参数，Tez 执行引擎将根据集群资源和配置自动确定每个容器的大小。

示例：

-- 设置每个 Tez 容器的大小为 8192 MB
SET hive.tez.container.size=8192;

指定 Tez 执行引擎中每个容器的虚拟核心数

在 Hive 中，hive.tez.cpu.vcores 是一个配置参数，用于指定 Tez 执行引擎中每个容器的虚拟核心数。以下是有关该参数的一些解释：

用途： 该参数用于控制 Tez 执行引擎中每个容器分配的虚拟核心数。Tez 容器是执行 Tez 任务的基本执行单元。
默认值： 默认情况下，hive.tez.cpu.vcores 的值通常是未设置，由 Tez 执行引擎根据集群资源和配置动态确定。
配置方法： 你可以通过 Hive 的配置文件或者在 Hive 命令行中使用 SET 命令来配置这个参数。例如：
```
SET hive.tez.cpu.vcores=2;
```
可选值： 该参数通常是一个整数，表示 Tez 执行引擎中每个容器的虚拟核心数。
影响： 该参数影响 Tez 执行引擎中每个容器的虚拟核心数。通过调整这个参数，可以根据集群的配置和资源限制来优化 Tez 任务的性能。
注意事项：
- Tez 容器的虚拟核心数应该根据集群的总核心数和任务的需求来设置，以确保足够的并行性和资源用于执行任务。
- 过大或过小的虚拟核心数都可能导致性能问题，需要根据实际情况进行调整。
- 如果未设置该参数，Tez 执行引擎将根据集群资源和配置自动确定每个容器的虚拟核心数。

示例：

-- 设置每个 Tez 容器的虚拟核心数为 2
SET hive.tez.cpu.vcores=2;

指定 Tez 任务中检查 DAG（Directed Acyclic Graph，有向无环图）状态的时间间隔

在 Hive 中，hive.tez.dag.status.check.interval 是一个配置参数，用于指定 Tez 任务中检查 DAG（Directed Acyclic Graph，有向无环图）状态的时间间隔。以下是有关该参数的一些解释：

用途： 该参数用于控制 Tez 任务中检查 DAG 状态的频率，以获取有关任务进度和状态的信息。
默认值： 默认情况下，hive.tez.dag.status.check.interval 的值通常是 5000 毫秒，表示默认情况下每 5 秒检查一次 DAG 状态。
配置方法： 你可以通过 Hive 的配置文件或者在 Hive 命令行中使用 SET 命令来配置这个参数。例如：
```
SET hive.tez.dag.status.check.interval=10000;
```
可选值： 该参数通常是一个整数，表示检查 DAG 状态的时间间隔，单位为毫秒。
影响： 该参数影响在 Tez 任务执行期间多久检查一次 DAG 状态。通过调整这个参数，可以更灵活地监控任务的进度和状态。
注意事项：
- 较短的检查间隔可以提供更实时的任务状态，但也增加了监控系统的负载。
- 较长的检查间隔可能导致在任务运行期间不够实时地获取状态信息。
- 需要根据实际需求和监控系统的能力来调整这个参数。

示例：

-- 设置 Tez 任务中检查 DAG 状态的时间间隔为 10 秒
SET hive.tez.dag.status.check.interval=10000;

是否启用 Tez 执行引擎中的动态分区裁剪

在 Hive 中，hive.tez.dynamic.partition.pruning 是一个配置参数，用于指定是否启用 Tez 执行引擎中的动态分区裁剪。以下是有关该参数的一些解释：

用途： 该参数用于控制 Tez 执行引擎在执行查询时是否启用动态分区裁剪。动态分区裁剪是一种优化技术，用于仅处理包含匹配分区键的分区，以减少计算和提高性能。
默认值： 默认情况下，hive.tez.dynamic.partition.pruning 的值通常是 true，表示默认情况下启用动态分区裁剪。
配置方法： 你可以通过 Hive 的配置文件或者在 Hive 命令行中使用 SET 命令来配置这个参数。例如：
```
SET hive.tez.dynamic.partition.pruning=false;
```
可选值： 该参数通常是一个布尔值，表示是否启用 Tez 执行引擎中的动态分区裁剪。
影响： 该参数影响 Tez 执行引擎在执行查询时是否使用动态分区裁剪。启用动态分区裁剪可以提高查询性能，特别是在连接操作和过滤操作中。
注意事项：
- 动态分区裁剪适用于分区表，其中查询仅需要处理与查询条件匹配的分区。
- 在某些情况下，动态分区裁剪可能并不总是带来性能提升，具体效果可能取决于表的分区方式和数据分布情况。
- 需要根据实际查询的特性和数据量来选择是否启用动态分区裁剪。

示例：

-- 禁用 Tez 执行引擎中的动态分区裁剪
SET hive.tez.dynamic.partition.pruning=false;

指定 Tez 执行引擎中的动态分区裁剪的最大数据大小

在 Hive 中，hive.tez.dynamic.partition.pruning.max.data.size 是一个配置参数，用于指定 Tez 执行引擎中的动态分区裁剪的最大数据大小。以下是有关该参数的一些解释：

用途： 该参数用于控制 Tez 执行引擎中的动态分区裁剪的最大数据大小。动态分区裁剪是一种优化技术，用于仅处理包含匹配分区键的分区，以减少计算和提高性能。
默认值： 默认情况下，hive.tez.dynamic.partition.pruning.max.data.size 的值通常是未设置，由 Tez 执行引擎根据默认策略动态确定。
配置方法： 你可以通过 Hive 的配置文件或者在 Hive 命令行中使用 SET 命令来配置这个参数。例如：
```
SET hive.tez.dynamic.partition.pruning.max.data.size=1073741824; -- 设置为1GB
```
可选值： 该参数通常是一个整数，表示最大数据大小，单位为字节。
影响： 该参数影响 Tez 执行引擎中的动态分区裁剪，限制了裁剪的最大数据大小。通过调整这个参数，可以根据查询的性质和数据分布来优化性能。
注意事项：
- 动态分区裁剪适用于分区表，其中查询仅需要处理与查询条件匹配的分区。
- 设置合适的最大数据大小可以防止动态分区裁剪过度，导致性能下降。
- 需要根据实际查询的特性和数据量来选择合适的最大数据大小。

示例：

-- 设置 Tez 执行引擎中的动态分区裁剪的最大数据大小为1GB
SET hive.tez.dynamic.partition.pruning.max.data.size=1073741824;

指定 Tez 执行引擎中的动态分区裁剪的最大事件大小

在 Hive 中，hive.tez.dynamic.partition.pruning.max.event.size 是一个配置参数，用于指定 Tez 执行引擎中的动态分区裁剪的最大事件大小。以下是有关该参数的一些解释：

用途： 该参数用于控制 Tez 执行引擎中的动态分区裁剪的最大事件大小。动态分区裁剪是一种优化技术，用于仅处理包含匹配分区键的分区，以减少计算和提高性能。
默认值： 默认情况下，hive.tez.dynamic.partition.pruning.max.event.size 的值通常是未设置，由 Tez 执行引擎根据默认策略动态确定。
配置方法： 你可以通过 Hive 的配置文件或者在 Hive 命令行中使用 SET 命令来配置这个参数。例如：
```
SET hive.tez.dynamic.partition.pruning.max.event.size=1048576; -- 设置为1MB
```
可选值： 该参数通常是一个整数，表示最大事件大小，单位为字节。
影响： 该参数影响 Tez 执行引擎中的动态分区裁剪，限制了裁剪的最大事件大小。通过调整这个参数，可以根据查询的性质和数据分布来优化性能。
注意事项：
- 动态分区裁剪适用于分区表，其中查询仅需要处理与查询条件匹配的分区。
- 设置合适的最大事件大小可以防止动态分区裁剪过度，导致性能下降。
- 需要根据实际查询的特性和数据量来选择合适的最大事件大小。

示例：

-- 设置 Tez 执行引擎中的动态分区裁剪的最大事件大小为1MB
SET hive.tez.dynamic.partition.pruning.max.event.size=1048576;

控制 Tez 执行引擎中的半连接（semijoin）操作的优化

在 Hive 中，hive.tez.dynamic.semijoin.reduction 是一个配置参数，用于控制 Tez 执行引擎中的半连接（semijoin）操作的优化。以下是有关该参数的一些解释：

用途： 该参数用于启用或禁用 Tez 执行引擎中的半连接操作的优化，以减少计算成本和提高性能。
默认值： 默认情况下，hive.tez.dynamic.semijoin.reduction 的值通常是 true，表示默认情况下启用半连接操作的优化。
配置方法： 你可以通过 Hive 的配置文件或者在 Hive 命令行中使用 SET 命令来配置这个参数。例如：
```
SET hive.tez.dynamic.semijoin.reduction=false;
```
可选值： 该参数通常是一个布尔值，表示是否启用 Tez 执行引擎中半连接操作的优化。
影响： 该参数影响 Tez 执行引擎中半连接操作的优化。启用半连接操作的优化可以降低计算成本，提高查询性能。
注意事项：
- 半连接是一种连接操作，返回左表中在右表中找到匹配项的行，但不返回右表中的实际数据。
- 优化半连接操作可能涉及到避免不必要的计算，提高执行效率。
- 需要根据实际查询的特性和数据分布来选择是否启用半连接操作的优化。

示例：

-- 禁用 Tez 执行引擎中半连接操作的优化
SET hive.tez.dynamic.semijoin.reduction=false;

指定 Tez 执行引擎中的动态半连接（semijoin）操作的优化因子

在 Hive 中，hive.tez.dynamic.semijoin.reduction.for.dpp.factor 是一个配置参数，用于指定 Tez 执行引擎中的动态半连接（semijoin）操作的优化因子。以下是有关该参数的一些解释：

用途： 该参数用于调整 Tez 执行引擎中的动态半连接操作的优化因子，以便更好地适应查询的性质和数据分布。
默认值： 默认情况下，hive.tez.dynamic.semijoin.reduction.for.dpp.factor 的值通常是未设置，由 Tez 执行引擎根据默认策略动态确定。
配置方法： 你可以通过 Hive 的配置文件或者在 Hive 命令行中使用 SET 命令来配置这个参数。例如：
```
SET hive.tez.dynamic.semijoin.reduction.for.dpp.factor=1.5;
```
可选值： 该参数通常是一个浮点数，表示动态半连接操作的优化因子。
影响： 该参数影响 Tez 执行引擎中动态半连接操作的优化效果。通过调整这个参数，可以更灵活地适应查询的性质和数据分布。
注意事项：
- 动态半连接操作是一种连接操作的优化，用于减少计算成本和提高性能。
- 优化因子的调整可以影响半连接操作的裁剪效果，需要根据实际查询的特性和数据量来选择合适的因子。

示例：

-- 设置 Tez 执行引擎中动态半连接操作的优化因子为 1.5
SET hive.tez.dynamic.semijoin.reduction.for.dpp.factor=1.5;

指定 Tez 执行引擎中的动态半连接（semijoin）操作在 Map Join 中的优化因子

在 Hive 中，hive.tez.dynamic.semijoin.reduction.for.mapjoin 是一个配置参数，用于指定 Tez 执行引擎中的动态半连接（semijoin）操作在 Map Join 中的优化因子。以下是有关该参数的一些解释：

用途： 该参数用于调整 Tez 执行引擎中动态半连接操作在 Map Join 中的优化因子，以便更好地适应查询的性质和数据分布。
默认值： 默认情况下，hive.tez.dynamic.semijoin.reduction.for.mapjoin 的值通常是未设置，由 Tez 执行引擎根据默认策略动态确定。
配置方法： 你可以通过 Hive 的配置文件或者在 Hive 命令行中使用 SET 命令来配置这个参数。例如：
```
SET hive.tez.dynamic.semijoin.reduction.for.mapjoin=1.2;
```
可选值： 该参数通常是一个浮点数，表示动态半连接操作在 Map Join 中的优化因子。
影响： 该参数影响 Tez 执行引擎中动态半连接操作在 Map Join 中的优化效果。通过调整这个参数，可以更灵活地适应查询的性质和数据分布。
注意事项：
- 动态半连接操作是一种连接操作的优化，用于减少计算成本和提高性能。
- 优化因子的调整可以影响半连接操作在 Map Join 中的裁剪效果，需要根据实际查询的特性和数据量来选择合适的因子。

示例：

-- 设置 Tez 执行引擎中动态半连接操作在 Map Join 中的优化因子为 1.2
SET hive.tez.dynamic.semijoin.reduction.for.mapjoin=1.2;

指定 Tez 执行引擎中的动态半连接（semijoin）操作的优化阈值

在 Hive 中，hive.tez.dynamic.semijoin.reduction.threshold 是一个配置参数，用于指定 Tez 执行引擎中的动态半连接（semijoin）操作的优化阈值。以下是有关该参数的一些解释：

用途： 该参数用于控制 Tez 执行引擎中动态半连接操作的优化阈值，即在多大的数据量情况下应用半连接操作的优化。
默认值： 默认情况下，hive.tez.dynamic.semijoin.reduction.threshold 的值通常是未设置，由 Tez 执行引擎根据默认策略动态确定。
配置方法： 你可以通过 Hive 的配置文件或者在 Hive 命令行中使用 SET 命令来配置这个参数。例如：
```
SET hive.tez.dynamic.semijoin.reduction.threshold=1000000; -- 设置为100万行
```
可选值： 该参数通常是一个整数，表示半连接操作的优化阈值，即在多大的数据量情况下应用半连接操作的优化。
影响： 该参数影响 Tez 执行引擎中动态半连接操作的优化阈值。通过调整这个参数，可以更灵活地适应查询的性质和数据分布。
注意事项：
- 动态半连接操作是一种连接操作的优化，用于减少计算成本和提高性能。
- 阈值的设置可以影响半连接操作的应用范围，需要根据实际查询的特性和数据量来选择合适的阈值。

示例：

-- 设置 Tez 执行引擎中动态半连接操作的优化阈值为100万行
SET hive.tez.dynamic.semijoin.reduction.threshold=1000000;

是否启用 Tez 执行引擎中的内存管理器

在 Hive 中，hive.tez.enable.memory.manager 是一个配置参数，用于指定是否启用 Tez 执行引擎中的内存管理器。以下是有关该参数的一些解释：

用途： 该参数用于控制是否启用 Tez 执行引擎中的内存管理器。内存管理器负责有效地分配和管理任务执行期间的内存资源。
默认值： 默认情况下，hive.tez.enable.memory.manager 的值通常是 true，表示默认情况下启用 Tez 执行引擎中的内存管理器。
配置方法： 你可以通过 Hive 的配置文件或者在 Hive 命令行中使用 SET 命令来配置这个参数。例如：
```
SET hive.tez.enable.memory.manager=false;
```
可选值： 该参数通常是一个布尔值，表示是否启用 Tez 执行引擎中的内存管理器。
影响： 该参数影响 Tez 执行引擎中的内存资源管理。启用内存管理器可以更有效地分配和控制任务执行期间的内存使用，有助于提高性能和稳定性。
注意事项：
- 内存管理器的启用与禁用可能会对任务的内存使用和性能产生显著影响，具体效果可能取决于查询的复杂性和数据量。
- 在某些情况下，禁用内存管理器可能导致任务执行期间的内存问题和性能下降。
- 需要根据实际场景和需求来决定是否启用或禁用内存管理器。

示例：

-- 禁用 Tez 执行引擎中的内存管理器
SET hive.tez.enable.memory.manager=false;

是否启用 Tez 执行引擎中的原地执行进度跟踪

在 Hive 中，hive.tez.exec.inplace.progress 是一个配置参数，用于指定是否启用 Tez 执行引擎中的原地执行进度跟踪。以下是有关该参数的一些解释：

用途： 该参数用于控制是否启用 Tez 执行引擎中的原地执行进度跟踪。原地执行进度跟踪允许在任务执行期间实时监控任务的进度信息。
默认值： 默认情况下，hive.tez.exec.inplace.progress 的值通常是 true，表示默认情况下启用 Tez 执行引擎中的原地执行进度跟踪。
配置方法： 你可以通过 Hive 的配置文件或者在 Hive 命令行中使用 SET 命令来配置这个参数。例如：
```
SET hive.tez.exec.inplace.progress=false;
```
可选值： 该参数通常是一个布尔值，表示是否启用 Tez 执行引擎中的原地执行进度跟踪。
影响： 该参数影响 Tez 执行引擎中的任务进度信息的跟踪。启用原地执行进度跟踪可以在任务执行期间实时监控任务的进度，方便调优和监控。
注意事项：
- 原地执行进度跟踪通常用于实时监控任务的进度，特别是在任务执行时间较长的情况下。
- 在某些情况下，禁用原地执行进度跟踪可能有助于减少资源消耗。
- 需要根据实际需求和监控系统的能力来决定是否启用原地执行进度跟踪。

示例：

-- 禁用 Tez 执行引擎中的原地执行进度跟踪
SET hive.tez.exec.inplace.progress=false;

是否在 Tez 执行引擎中打印任务执行的摘要信息

在 Hive 中，hive.tez.exec.print.summary 是一个配置参数，用于指定是否在 Tez 执行引擎中打印任务执行的摘要信息。以下是有关该参数的一些解释：

用途： 该参数用于控制是否在 Tez 执行引擎中打印任务执行的摘要信息。任务执行的摘要信息包括任务的执行时间、资源使用情况等。
默认值： 默认情况下，hive.tez.exec.print.summary 的值通常是 false，表示默认情况下不打印任务执行的摘要信息。
配置方法： 你可以通过 Hive 的配置文件或者在 Hive 命令行中使用 SET 命令来配置这个参数。例如：
```
SET hive.tez.exec.print.summary=true;
```
可选值： 该参数通常是一个布尔值，表示是否在 Tez 执行引擎中打印任务执行的摘要信息。
影响： 该参数影响 Tez 执行引擎中任务执行的监控和调优。打印任务执行的摘要信息可以帮助用户更好地了解任务的性能和资源使用情况。
注意事项：
- 打印任务执行的摘要信息通常用于任务监控和性能调优。
- 在生产环境中，可能需要谨慎使用此选项，以避免过多的日志信息导致性能问题。
- 需要根据实际需求和监控系统的能力来决定是否启用任务执行的摘要信息的打印。

示例：

-- 启用 Tez 执行引擎中任务执行的摘要信息的打印
SET hive.tez.exec.print.summary=true;

是否启用 HiveServer2 (HS2) 用户访问控制

在 Hive 中，hive.tez.hs2.user.access 是一个配置参数，用于指定是否启用 HiveServer2 (HS2) 用户访问控制。以下是有关该参数的一些解释：

用途： 该参数用于控制是否启用 HiveServer2 (HS2) 用户访问控制。启用后，可以通过配置来限制或授权特定用户对 HiveServer2 的访问。
默认值： 默认情况下，hive.tez.hs2.user.access 的值通常是未设置或设置为 false，表示默认情况下不启用 HS2 用户访问控制。
配置方法： 你可以通过 Hive 的配置文件或者在 Hive 命令行中使用 SET 命令来配置这个参数。例如：
```
SET hive.tez.hs2.user.access=true;
```
可选值： 该参数通常是一个布尔值，表示是否启用 HS2 用户访问控制。
影响： 该参数影响 HiveServer2 (HS2) 的用户访问控制。启用用户访问控制后，可以根据配置来限制或允许特定用户对 HS2 的访问。
注意事项：
- 启用用户访问控制可以增强 HiveServer2 的安全性，但需要谨慎配置以确保正常的用户访问。
- 需要在配置中指定允许或拒绝访问的用户列表，以及相应的权限。
- HS2 用户访问控制的配置可能会涉及到 Hive 的安全配置和用户认证配置。

示例：

-- 启用 HiveServer2 用户访问控制
SET hive.tez.hs2.user.access=true;

指定 Tez 执行引擎中使用的输入格式

在 Hive 中，hive.tez.input.format 是一个配置参数，用于指定 Tez 执行引擎中使用的输入格式。以下是有关该参数的一些解释：

用途： 该参数用于指定 Tez 执行引擎中使用的输入格式，即用于读取数据的输入格式。
默认值： 默认情况下，hive.tez.input.format 的值通常是未设置，由 Hive 根据默认策略选择合适的输入格式。
配置方法： 你可以通过 Hive 的配置文件或者在 Hive 命令行中使用 SET 命令来配置这个参数。例如：
```
SET hive.tez.input.format=org.apache.hadoop.hive.ql.io.HiveInputFormat;
```
可选值： 该参数通常是一个字符串，表示要使用的输入格式的类名。
影响： 该参数影响 Tez 执行引擎中任务读取数据的方式。不同的输入格式可以用于读取不同类型的数据存储，如文本文件、Parquet 文件等。
注意事项：
- 需要确保所指定的输入格式类存在且可用。
- 输入格式的选择可能会受到底层数据存储的限制。
- 在某些情况下，可以通过配置输入格式来优化任务的性能。

示例：

-- 设置 Tez 执行引擎中使用的输入格式为 Hive 默认输入格式
SET hive.tez.input.format=org.apache.hadoop.hive.ql.io.HiveInputFormat;

指定 Tez 执行引擎中是否生成一致的数据切片（consistent splits）作为任务的输入

在 Hive 中，hive.tez.input.generate.consistent.splits 是一个配置参数，用于指定 Tez 执行引擎中是否生成一致的数据切片（consistent splits）作为任务的输入。以下是有关该参数的一些解释：

用途： 该参数用于控制 Tez 执行引擎中是否生成一致的数据切片，以便用于任务的输入。
默认值： 默认情况下，hive.tez.input.generate.consistent.splits 的值通常是 false，表示默认情况下不生成一致的数据切片。
配置方法： 你可以通过 Hive 的配置文件或者在 Hive 命令行中使用 SET 命令来配置这个参数。例如：
```
SET hive.tez.input.generate.consistent.splits=true;
```
可选值： 该参数通常是一个布尔值，表示是否生成一致的数据切片。
影响： 该参数影响 Tez 执行引擎中任务的输入数据切片的生成方式。生成一致的数据切片可以确保任务之间的输入分布更加均匀，提高任务执行的并行性。
注意事项：
- 一致的数据切片通常用于确保任务之间的负载均衡，特别是在数据分布不均匀的情况下。
- 生成一致的数据切片可能会导致一些额外的计算开销，具体影响取决于数据的特性和分布。
- 需要根据实际场景和任务的特性来决定是否启用一致的数据切片。

示例：

-- 启用 Tez 执行引擎中生成一致的数据切片
SET hive.tez.input.generate.consistent.splits=true;

指定每个 LLAP 执行器（executor）的最小减少器数量

在 Hive 中，hive.tez.llap.min.reducer.per.executor 是一个配置参数，用于指定每个 LLAP 执行器（executor）的最小减少器数量。以下是有关该参数的一些解释：

用途： 该参数用于控制在 LLAP（Low Latency Analytical Processing）执行模式下，每个 LLAP 执行器启动时的最小减少器数量。减少器是在 MapReduce 任务中执行的特殊任务，负责数据的聚合和最终结果的生成。
默认值： 默认情况下，hive.tez.llap.min.reducer.per.executor 的值通常是未设置，由 Hive 根据默认策略确定。
配置方法： 你可以通过 Hive 的配置文件或者在 Hive 命令行中使用 SET 命令来配置这个参数。例如：
```
SET hive.tez.llap.min.reducer.per.executor=2;
```
可选值： 该参数通常是一个正整数，表示每个 LLAP 执行器启动时的最小减少器数量。
影响： 该参数影响 LLAP 执行模式下任务的并行度和性能。增加最小减少器数量可以提高任务的并行性，但可能会增加资源消耗。
注意事项：
- 在某些情况下，适当增加最小减少器数量可以提高查询性能，特别是在处理大规模数据时。
- 需要根据查询的特性、数据规模和集群资源来确定合适的最小减少器数量。
- 调整该参数可能需要综合考虑任务的执行时间、资源利用率和查询性能。

示例：

-- 设置 LLAP 执行模式下每个 LLAP 执行器启动时的最小减少器数量为 2
SET hive.tez.llap.min.reducer.per.executor=2;

指定 Tez 执行引擎的日志级别

在 Hive 中，hive.tez.log.level 是一个配置参数，用于指定 Tez 执行引擎的日志级别。以下是有关该参数的一些解释：

用途： 该参数用于控制 Tez 执行引擎的日志级别。日志级别决定了记录在日志中的信息的详细程度。
默认值： 默认情况下，hive.tez.log.level 的值通常是未设置，由 Tez 执行引擎使用其默认的日志级别。
配置方法： 你可以通过 Hive 的配置文件或者在 Hive 命令行中使用 SET 命令来配置这个参数。例如：
```
SET hive.tez.log.level=INFO;
```
可选值： 该参数通常是一个字符串，表示 Tez 执行引擎的日志级别。常见的值包括 DEBUG、INFO、WARN、ERROR 等。
影响： 该参数影响 Tez 执行引擎生成的日志的详细程度。较低的日志级别会减少日志的数量，而较高的日志级别会记录更详细的信息。
注意事项：
- 设置适当的日志级别有助于在调试和排查问题时更容易定位问题。
- 较高的日志级别可能会导致日志文件变得较大，因此在生产环境中应谨慎选择。
- 日志级别可以根据需要动态调整，而无需重启 Hive。

示例：

-- 设置 Tez 执行引擎的日志级别为 INFO
SET hive.tez.log.level=INFO;

指定在 Tez 执行引擎中使用的 Bloom 过滤器的最大条目数

在 Hive 中，hive.tez.max.bloom.filter.entries 是一个配置参数，用于指定在 Tez 执行引擎中使用的 Bloom 过滤器的最大条目数。以下是有关该参数的一些解释：

用途： 该参数用于控制 Tez 执行引擎中 Bloom 过滤器的最大条目数。Bloom 过滤器是一种用于快速判断某个元素是否属于一个集合的数据结构，通常用于优化查询性能。
默认值： 默认情况下，hive.tez.max.bloom.filter.entries 的值通常是未设置，由 Tez 执行引擎使用其默认的策略。
配置方法： 你可以通过 Hive 的配置文件或者在 Hive 命令行中使用 SET 命令来配置这个参数。例如：
```
SET hive.tez.max.bloom.filter.entries=1000000;
```
可选值： 该参数通常是一个正整数，表示 Bloom 过滤器的最大条目数。
影响： 该参数影响 Tez 执行引擎中使用 Bloom 过滤器时的最大条目数。增加最大条目数可能提高 Bloom 过滤器的准确性，但会增加内存开销。
注意事项：
- Bloom 过滤器通常用于过滤掉不可能包含匹配项的数据块，以减少实际查询的开销。
- 增加最大条目数可能会导致更多的内存使用，需要在可用内存和性能之间进行权衡。
- 需要根据实际数据特性和查询模式来调整该参数。

示例：

-- 设置 Tez 执行引擎中 Bloom 过滤器的最大条目数为 1,000,000
SET hive.tez.max.bloom.filter.entries=1000000;

指定 Tez 执行引擎中的最大分区因子

在 Hive 中，hive.tez.max.partition.factor 是一个配置参数，用于指定 Tez 执行引擎中的最大分区因子。以下是有关该参数的一些解释：

用途： 该参数用于控制 Tez 执行引擎中的最大分区因子，分区因子用于控制数据在任务中的分布。
默认值： 默认情况下，hive.tez.max.partition.factor 的值通常是未设置，由 Tez 执行引擎使用其默认的策略。
配置方法： 你可以通过 Hive 的配置文件或者在 Hive 命令行中使用 SET 命令来配置这个参数。例如：
```
SET hive.tez.max.partition.factor=100;
```
可选值： 该参数通常是一个正整数，表示最大分区因子。
影响： 该参数影响 Tez 执行引擎中任务的分区因子，从而影响任务执行期间数据的分布。较大的分区因子可能导致更均匀的数据分布，但也可能增加任务的启动时间。
注意事项：
- 分区因子用于确定数据在任务中的分布方式，可以影响任务的性能和资源利用率。
- 较大的分区因子可能有助于更均匀地分配任务的工作负载，但也可能导致一些任务启动时间较长。
- 需要根据实际数据分布和任务执行模式来调整该参数。

示例：

-- 设置 Tez 执行引擎中的最大分区因子为 100
SET hive.tez.max.partition.factor=100;

指定 Tez 执行引擎中使用的 Bloom 过滤器的最小条目数

在 Hive 中，hive.tez.min.bloom.filter.entries 是一个配置参数，用于指定 Tez 执行引擎中使用的 Bloom 过滤器的最小条目数。以下是有关该参数的一些解释：

用途： 该参数用于控制 Tez 执行引擎中 Bloom 过滤器的最小条目数。Bloom 过滤器是一种用于快速判断某个元素是否属于一个集合的数据结构，通常用于优化查询性能。
默认值： 默认情况下，hive.tez.min.bloom.filter.entries 的值通常是未设置，由 Tez 执行引擎使用其默认的策略。
配置方法： 你可以通过 Hive 的配置文件或者在 Hive 命令行中使用 SET 命令来配置这个参数。例如：
```
SET hive.tez.min.bloom.filter.entries=10000;
```
可选值： 该参数通常是一个正整数，表示 Bloom 过滤器的最小条目数。
影响： 该参数影响 Tez 执行引擎中使用 Bloom 过滤器时的最小条目数。较小的最小条目数可能导致 Bloom 过滤器不够准确，而较大的最小条目数可能增加内存开销。
注意事项：
- Bloom 过滤器通常用于过滤掉不可能包含匹配项的数据块，以减少实际查询的开销。
- 较大的最小条目数可能会导致更多的内存使用，需要在可用内存和性能之间进行权衡。
- 需要根据实际数据特性和查询模式来调整该参数。

示例：

-- 设置 Tez 执行引擎中 Bloom 过滤器的最小条目数为 10,000
SET hive.tez.min.bloom.filter.entries=10000;

指定 Tez 执行引擎中的最小分区因子

在 Hive 中，hive.tez.min.partition.factor 是一个配置参数，用于指定 Tez 执行引擎中的最小分区因子。以下是有关该参数的一些解释：

用途： 该参数用于控制 Tez 执行引擎中的最小分区因子，分区因子用于控制数据在任务中的分布。
默认值： 默认情况下，hive.tez.min.partition.factor 的值通常是未设置，由 Tez 执行引擎使用其默认的策略。
配置方法： 你可以通过 Hive 的配置文件或者在 Hive 命令行中使用 SET 命令来配置这个参数。例如：
```
SET hive.tez.min.partition.factor=10;
```
可选值： 该参数通常是一个正整数，表示最小分区因子。
影响： 该参数影响 Tez 执行引擎中任务的分区因子，从而影响任务执行期间数据的分布。较小的分区因子可能导致任务之间的工作负载分布不均匀。
注意事项：
- 分区因子用于确定数据在任务中的分布方式，可以影响任务的性能和资源利用率。
- 较小的分区因子可能导致任务之间的工作负载分布不均匀，但也可能减少任务的启动时间。
- 需要根据实际数据分布和任务执行模式来调整该参数。

示例：

-- 设置 Tez 执行引擎中的最小分区因子为 10
SET hive.tez.min.partition.factor=10;

指定在 Tez 会话期间是否打印事件的摘要信息

在 Hive 中，hive.tez.session.events.print.summary 是一个配置参数，用于指定在 Tez 会话期间是否打印事件的摘要信息。以下是有关该参数的一些解释：

用途： 该参数用于控制 Tez 会话期间是否打印事件的摘要信息。Tez 会话包括了一系列的事件，这些事件可以提供关于任务执行和性能的有用信息。
默认值： 默认情况下，hive.tez.session.events.print.summary 的值通常是未设置或设置为 false，表示默认情况下不打印事件的摘要信息。
配置方法： 你可以通过 Hive 的配置文件或者在 Hive 命令行中使用 SET 命令来配置这个参数。例如：
```
SET hive.tez.session.events.print.summary=true;
```
可选值： 该参数通常是一个布尔值，表示是否打印 Tez 会话期间事件的摘要信息。
影响： 该参数影响 Tez 会话期间是否在日志中打印事件的摘要信息。打印事件摘要信息可以用于分析任务的执行情况和性能瓶颈。
注意事项：
- 打印事件摘要信息可能会增加日志的数量，特别是在执行大规模任务时。
- 该信息通常用于调试和性能分析，建议在需要时启用，并在不需要时禁用。

示例：

-- 在 Tez 会话期间打印事件的摘要信息
SET hive.tez.session.events.print.summary=true;

OnePandas

关注

21
点赞
踩
22

收藏

觉得还不错? 一键收藏
打赏
0
评论
Hive之set参数大全-20

在 Hive 中，是一个配置参数，用于指定在 Tez 会话期间是否打印事件的摘要信息。该参数用于控制 Tez 会话期间是否打印事件的摘要信息。Tez 会话包括了一系列的事件，这些事件可以提供关于任务执行和性能的有用信息。默认情况下，的值通常是未设置或设置为false，表示默认情况下不打印事件的摘要信息。你可以通过 Hive 的配置文件或者在 Hive 命令行中使用SET命令来配置这个参数。该参数通常是一个布尔值，表示是否打印 Tez 会话期间事件的摘要信息。
复制链接

扫一扫