WaterDrop--如何快速地将MongoDB中的数据导入Hive


最近我们有些MongoDB业务库的数据需要导入至Hive中,以前我是用的Kettle进行离线抽取GreenPlum,但是现在我们的数仓整体迁至Hive+Impala,导致使用kettle无法使用,使用sparkSQL又有点麻烦,需要部署jar之类的,由于我们之前就使用过WaterDrop工具将GP[GreenPlum4]中的数据导入CK[ClickHouse],然后我们就看下WaterDrop的官方文档,也支持 MongoDB数据的读取和 Hdfs文件的写入,这样的话我们就可以写成一个shell脚本,通过sparkSQL来操控ETL过程

准备环境

	WaterDrop:1.x #毕竟1.x比较稳定,2.x虽然是支持Flink,但是功能点比较少
	MongoDB:* #版本不介绍了,毕竟咱也不知道,能查出数就行
	Hdfs:3.* #CDH6.1版本的
	Hive:2.* #CDH6.1版本的
	hive表已经创建完成,并且是以 , 号分割开来的
	waterdrop服务器安装hdfs、hive客户端

编写脚本-WaterDrop.conf

vim MongoDBToTasksHive.conf


spark {
        spark.app.name = "MongoDB70tasksToHive"	#Spark运行job名称
        spark.ui.port = 13000	#Spark端口号
}
input{
   mongodb {
   		#mongodb://username:password@localhost:port/databases
        readconfig.uri="mongodb://username:password@mongodb_localhost:port/databases"	#MongoDB链接地址
        readconfig.database="qez" #等同于关系型数据databases
        readconfig.collection="tasks"	#等同于关系型数据table
        readconfig.password="qez123"	#MongoDB数据库密码(我知道上面已经配置了,但是在这里不配置的话,会报错,这是我们走过的坑,重点记一下)
        readconfig.spark.mongodb.input.partitioner = "MongoPaginateBySizePartitioner"	#用于对数据进行分区的分区程序的类名(其实我也不是很明白)
			#spark.mongodb.input.partitioner:用于对数据进行分区的分区程序的类名
			#默认使用:MongoDefaultPartitioner,其他值有:
			#MongoSamplePartitioner:使用集合的平均文档大小和随机抽样来确定集合的合适分区。
			#MongoShardedPartitioner:根据数据块对集合进行分区。需要对config数据库的读访问权限。
			#MongoSplitVectorPartitioner:使用splitVector独立命令或主数据库上的命令来确定数据库的分区。需要特权才能运行splitVector命令
			#MongoPaginateByCountPartitioner:创建特定数量的分区。需要查询每个分区。
			#MongoPaginateBySizePartitioner:根据数据大小创建分区。需要查询每个分区。  
		result_table_name = "tasks"	#读取表的别名
    }
}
filter{
	sql{
		#SparkSQL
		sql="select shopId,regexp_replace(reason,'\\\\n|\\\\\t|\\\\\r|,|','') reason from tasks where createat >= date_sub(date_format(current_date,'yyyy-MM-dd'),30)"
	}
}
output{
   hdfs {
        path = "hdfs://hdfs_localhost:port/tmp/hive/ods/tasks/data"	#写入路径
        serializer = "csv"	#输出格式
   }
#	测试打印
#	stdout {
#		limit = 1	#打印一行
#		serializer = "json"		#打印格式
#	}
}

hdfs ==> hive

这里我们使用的hive -e load data inpath url into table databases_table;

vim MongoDb2Hive.sh

#!/bin/bash
#传入hive数据库层级名称  databases_name; 
databases_name=$1
#传入hive数据库表 table_name
table_name=$2;
#databases_table_name 
databases_table=$databases_name"."$table_name
#job_name  ⇒ waterdrop.conf配置文件名称或者路径
job_name=$3;
echo $databases_name $table_name $job_name $databases_table
# mkdir file hdfs   在hdfs上创建存储上传文件路径
mkdirHdfsFile=`hdfs dfs -mkdir -p /tmp/hive/$databases_name/$table_name`
#echo $mkdirHdfsFile
# start waterdrop shell 调用刚才写好的waterdrop.conf文件   @WATERDROP_HOME为waterdrop 安装路径
@WATERDROP_HOME/bin/start-waterdrop.sh --master yarn --deploy-mode cluster --config @WATERDROP_HOME/jobs/$job_name
# 调用hive -e 清空hive目标表 
truncate_table=`hive -e "truncate table ${databases_table} ;"`
echo $truncate_table
# start hive shell
#获取HDFS文件存放路径
outdir=/tmp/hive/$databases_name/$table_name/data/
files=`hdfs dfs -ls $outdir |  awk -F " " '{print $8}'`
for name in $files
do		
		#截取文件名称
        filename=`echo $name  | awk -F '/' '{print $7}'`
        if [ $filename != "_SUCCESS" ];then
                echo  $filename $name
                #执行Hive -e load data 命令
                hive -e "load data inpath '${name}' into table ${databases_table};"
        fi
done
# 删除hdfs文件路径 rm hdfs hdfs
deleteHdfsFile=`hdfs dfs -rm -r -f /tmp/hive/$databases_name/$table_name`
echo $deleteHdfsFile

调用shell并加之Azkaban进行任务调度

#OdsTasksAllDayWky.job
type=command
command=sh @AZKABAN_HOME/jobs/MongoDb2Hive.sh ods tasks MongoDBToTasksHive.conf 
dependencies=GreenPlumToHiveStart

在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值