hive表增量抽取到mysql(关系数据库)的通用程序(三)

最新推荐文章于 2023-11-07 07:30:00 发布

weixin_30852451

最新推荐文章于 2023-11-07 07:30:00 发布

阅读量583

点赞数

文章标签：大数据数据库 java

原文链接：http://www.cnblogs.com/30go/p/10560260.html

版权

hive表增量抽取到oracle数据库的通用程序(一)

hive表增量抽取到oracle数据库的通用程序(二)

这几天又用到了该功能了，所以又改进了一版，增加了全量抽取和批量抽取两个参数。并且可以设置每批次抽取到记录数。

使用shell脚本可以方便的将hive中数据抽取到任何关系型数据库中。

shell脚本到demo如下,为便于测试，将每批次处理改为2条记录：

#!/bin/sh

## !!!注意lib中jar包兼容性问题：
## 如果包含log4j-slf4j-impl-2.6.2.jar、log4j-web-2.6.2.jar，请删除，否则会导致冲突，程序启动报错。
##

dim_code=day
dim_value=`date -d "yesterday" +%Y%m%d`

## 以下字段不能换行
rdms_driver='com.mysql.jdbc.Driver'
rdms_url='jdbc:mysql://xx.xx.xx.xx:3306/bigdata?characterEncoding=UTF8'
rdms_username='bigdata'
rdms_password='123456'
rdms_tableName=app_flow_general
rdms_columnNames='tenantcode,dim_code,dim_value,store_code,platform,start_date,end_date,uv,pv,bounce_rate,avg_view,avg_ts,new_uv,old_uv,trade_cr'
rdms_presql='delete from app_flow_general where dim_code = "'${dim_code}'" and dim_value ="'${dim_value}'"'

## 依赖hiveServer2
hive_url='jdbc:hive2://dwdev-name1:10000/default'
hive_hql='select tenantcode,dim_code,dim_value,store_code,platform,start_date,end_date,uv,pv,bounce_rate,avg_view,avg_ts,new_uv,old_uv,trade_cr from dw_app.app_flow_general where dim_code = "'${dim_code}'" and dim_value = "'${dim_value}'"'

## 以下是执行java程序,可根据实际情况调整，默认可以不修改
## lib为jar依赖包文件夹
## hive_hql: 必填, hive中查询语句
## rdms_tableName: 必填，目标表名
## rdms_columnNames: 必填，目标表字段
## rdms_presql: 可选, 执行插入前，在RDMS中预先执行的sql。通常用来重复导入时候，先删除之前的错误数据
## batch_size: 可选, 默认值5000，和insert_model配合使用，当insert_model为0时才有效
## insert_model: 可选, 默认0， 默认分批次插入，0-分批次读取插入, 1-全部一次性读取插入
java -Djava.ext.dirs=lib com.etl.Hive2RMDS \
--hive_url "${hive_url}" \
--hive_hql "${hive_hql}" \
--rdms_driver "${rdms_driver}" \
--rdms_url "${rdms_url}" \
--rdms_username "${rdms_username}" \
--rdms_password "${rdms_password}" \
--rdms_tableName "${rdms_tableName}" \
--rdms_columnNames "${rdms_columnNames}" \
--rdms_presql "${rdms_presql}" \
--batch_size '2' \
--insert_model '0'