limit不优化会全部查询后,再返回部分
优化后:对数据源抽样返回
开启优化参数:
hive.limit.optimize.enable=true //开启对数据源进行采样的功能
hive.limit.row.max.size=100000 //设置最小采样容量。默认10万
hive.limit.optimize.file=10 //可抽样的最大文件数。默认10个
缺点:可能输入中有用的数据永远都不会被抽样到。
(1)配置文件
Hive 的配置文件包括:
A. 用户自定义配置文件:$HIVE_CONF_DIR/hive-site.xml
B. 默认配置文件:$HIVE_CONF_DIR/hive-default.xml
用户自定义配置会覆盖默认配置。
另外,Hive 也会读入 Hadoop 的配置,因为 Hive 是作为 Hadoop 的客户端启动的,Hive 的配 置会覆盖 Hadoop 的配置。
配置文件的设定对本机启动的所有 Hive 进程都有效。
<property>
<name>hive.limit.optimize.enable</name>
<value>true</value>
</property>
<property>
<name>hive.limit.row.max.size</name>
<value>100000</value>
</property>
<property>
<name