Hive中常见的脚本

该博客介绍了两个自动化脚本:1) 检查Hive表的分区是否准备就绪,每5分钟检查一次,持续1小时;2) 自动为Hive表创建15分钟或5分钟的分区,确保实时数据sink的准确性。这些脚本对于大数据处理和监控至关重要。
摘要由CSDN通过智能技术生成

1.依赖的check

chk_table=$1
ds=$2
hh=$3
mi=$4
echo "Check table ${chk_table} partition(ds=${ds},hh=${hh},mi=${mi})."


#每5分钟检查一次,检查1小时
i=0
while [ $i -lt 180 ]
do
    i=` expr $i + 5 `
    echo '===i的值是===' $i
    table_partitionsize_1=`hive -e "desc ${chk_table} partition(ds=${ds},hh=${hh},mi=${mi});"|grep -i size|awk '{print $3}'`

    if [ $table_partitionsize_1 -gt 0 ]
    then   
        echo `date` " Ready NOW, table ${chk_table} partition ${ds}${hh}${mi} size is ${table_partitionsize_1} . "
        exit 0
    else   
        echo `date` " NOT ready !"
        echo "sleep 1 min"
        sleep 60
    fi
done

echo "Tried too many times, exit."
exit -1

2.自动创建分区

一般在实时sink数据到hive的时候需要使用

2.1 15分钟分区

# import datetime

tomorrow =args['tomorrow']
table = args['table']

for hh in range (0,24,1):
    hh = str(hh).zfill(2) #位数不足前面补0
    for mi in range (0,60,15):
        mi = str(mi).zfill(2)
        # print (tomorrow+hh+mi)
        sql = 'alter table {} add if not exists partition (ds=\'{}\', hh=\'{}\',mm=\'{}\')'.format(table,tomorrow,hh,mi)
        print (sql)
        o.execute_sql(sql)

2.2 5分钟分区

import datetime

tomorrow =args['tomorrow']
table = args['table']

for hh in range (0,24,1):
    hh = str(hh).zfill(2) #位数不足前面补0
    for mi in range (0,60,05):
        mi = str(mi).zfill(2)
        # print (tomorrow+hh+mi)
        sql = 'alter table {} add if not exists partition (ds=\'{}\', hh=\'{}\',mm=\'{}\')'.format(table,tomorrow,hh,mi)
        print (sql)
        o.execute_sql(sql) 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值