Hive笔记4-Shell操作

最新推荐文章于 2024-06-14 21:06:37 发布

Fighting_No1

最新推荐文章于 2024-06-14 21:06:37 发布

阅读量348

点赞数

分类专栏：大数据文章标签： hive

本文链接：https://blog.csdn.net/fighting_no1/article/details/88690061

版权

大数据专栏收录该内容

14 篇文章 0 订阅

订阅专栏

Hive Shell操作

参考资料：

1、Hive命令行

语法结构

hive [-hiveconf x=y]* [<-i filename>]* [<-f filename>|<-e query-string>] [-S]

说明：

-i 从文件初始化HQL。
-e 从命令行执行指定的HQL
-f 执行HQL脚本
-v 输出执行的HQL语句到控制台
-p connect to Hive Server on port number
-hiveconf x=y Use this to set hive/hadoop configuration variables.

具体实例

1、运行一个查询。

hive -e 'select count(*) from student'

2、运行一个文件。

hive -f hql.hql

3、运行参数文件。

hive -i initHQL.conf

2、Hive参数配置方式

Hive参数大全

开发Hive应用时，不可避免地需要设定Hive的参数。设定Hive的参数可以调优HQL代码的执行效率，或帮助定位问题。然而实践中经常遇到的一个问题是，为什么设定的参数没有起作用？这通常是错误的设定方式导致的。

对于一般参数，有以下三种设定方式：

配置文件
命令行参数
参数声明

1. 配置文件

Hive的配置文件包括

用户自定义配置文件：$HIVE_CONF_DIR/hive-site.xml
默认配置文件：$HIVE_CONF_DIR/hive-default.xml

用户自定义配置会覆盖默认配置。

另外，Hive也会读入Hadoop的配置，因为Hive是作为Hadoop的客户端启动的，Hive的配置会覆盖Hadoop的配置。

配置文件的设定对本机启动的所有Hive进程都有效。

2. 命令行参数

启动Hive（客户端或Server方式）时，可以在命令行添加-hiveconf param=value来设定参数，例如：

bin/hive -hiveconf hive.root.logger=INFO,console

这一设定对本次启动的Session（对于Server方式启动，则是所有请求的Sessions）有效。

3、参数声明

可以在HQL中使用SET关键字设定参数，例如：

set mapred.reduce.tasks=100;

这一设定的作用域也是session级的。

上述三种设定方式的优先级依次递增。即参数声明覆盖命令行参数，命令行参数覆盖配置文件设定。注意某些系统级的参数，例如log4j相关的设定，必须用前两种方式设定，因为那些参数的读取在Session建立以前已经完成了。

3、配置优化

# 开启任务并行执行
set hive.exec.parallel=true
# 设置运行内存
set mapreduce.map.memory.mb=1024;
set mapreduce.reduce.memory.mb=1024;
# 指定队列
set mapreduce.job.queuename=jppkg_high;
# 动态分区，为了防止一个reduce处理写入一个分区导致速度严重降低，下面需设置为false
# 默认为true
set hive.optimize.sort.dynamic.partition=false;
# 设置变量
set hivevar:factor_timedecay=-0.3;
set hivevar:pre_month=${zdt.addDay(-30).format("yyyy-MM-dd")};
set hivevar:pre_date=${zdt.addDay(-1).format("yyyy-MM-dd")};
set hivevar:cur_date=${zdt.format("yyyy-MM-dd")};
# 添加第三方jar包, 添加临时函数
add jar ***.jar;
# 压缩输出，ORC默认自带压缩，不需要额外指定,如果使用非ORCFile,则设置如下
hive.exec.compress.output=true
# 如果一个大文件可以拆分，为防止一个Map读取过大的数据，拖慢整体流程，需设置
hive.hadoop.suports.splittable.combineinputformat
# 避免因数据倾斜造成的计算效率，默认false
hive.groupby.skewindata
# 避免因join引起的数据倾斜
hive.optimize.skewjoin
# map中会做部分聚集操作，效率高，但需要更多内存
hive.map.aggr   -- 默认打开
hive.groupby.mapaggr.checkinterval  -- 在Map端进行聚合操作的条目数目
# 当多个group by语句有相同的分组列，则会优化为一个MR任务。默认关闭。
hive.multigroupby.singlemr
# 自动使用索引，默认不开启，需配合row group index，可以提高计算速度
hive.optimize.index.filter

4、shell指令

#!/bin/bash
hive -e "use xxxdb;"

cnt = `hive -e "..."`
echo "cnt=${cnt}"

# 循环语句
for ((i=1; i<=10; i+=1))
do
pre_date=`date -d -${i}days +%F`
done

# 定义日期
pre_date=`date -d -1days +%F`
pre_week=`date -d -7days +%F`

# 设置环境变量
export JAVA_HOME=jdk;

Fighting_No1

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hive笔记4-Shell操作

Hive Shell操作参考资料：Hive详细介绍及简单应用Hive基本操作，DDL操作(创建表，修改表，显示命令)，DML操作(Load Insert Select),Hive Join,Hive Shell参数(内置运算符、内置函数)等Hive入门及常用指令1、Hive命令行语法结构hive [-hiveconf x=y]* [<-i filename>]* [&...
复制链接

扫一扫

专栏目录