Kettle将数据导入导Hive2

前言

       本来将数据导入到hive,但是不知道什么原因太慢了,一小时200条数据,优化一波kettle,还是成效不大,因此改为借用hadoop file output 到hdfs,然后再load 到hive表里

一,正文

1.在转换里拖入big data/hadoop file output

     新建hadoop cluster连接

     从集群里下载core-site.xml,hdfs-site.xml,yarn-site.xml,mapred-site.xml

     覆盖kettle的plugins\pentaho-big-data-plugin\hadoop-configurations\hdp26中的4个同名文件。

2.填写配置

连接信息只要hadoop file system connection连对就行

再从脚本里托人SQL

在文件里输入路径/文件名

内容里选择分隔符,是不是显示字段名(头部),压缩格式(orc,snappy)

在生气了语句里,新建数据库连接,写入sql语句

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值