hive
优荣月华
这个作者很懒,什么都没留下…
展开
-
Kettle spoon中mysql数据导入hive从建表到导数据解决方案参考
最近在学习大数据的数据迁移,要从关系型数据库里导数据到hive数据库里,其中碰到了很多麻烦,曾试过使用sqoop方式导入数据不过功能不够全面比如表结构及数据筛选问题,现在使用kettle来进行数据迁移工作,其中碰到了很多问题不过都能给出相应的解决方案,如此写下这篇文档供各位工程师参考 那么如何将mysql数据导入到hive里呢,kettle里有自带方法,可以通过表输入和表输出来实现,不过自带的方法...原创 2018-03-15 16:58:02 · 13453 阅读 · 0 评论 -
kettle 数据流合并,新增方法
网上参考了大量方法,有的不知所云,有的版本较低已不再合适,最近的项目中用到了这个经过一天多实验思考终于解决了,在此分享出来1,首先表输入里添加两个数据库,我这儿是mysql和hive的数据库连接然后添加合并记录,里面这么配置这儿要注意,标致字段可以用默认,等会要用到2,添加过滤记录其中一定要配置上面的标准字段然后数据数据流就可以了这儿为什么要这么过滤呢,原因是我再debug时发现的合并标识这儿会将...原创 2018-03-21 17:04:16 · 17196 阅读 · 0 评论 -
kettle linux hadoop 一些问题
最近在写linux使用kettle的定时转换方法,碰见了很恶心的问题原本流程是从本地读取文件到hdfs但是一直提示无法找到hdfs位置猜测原因是转换中的与这个相冲突,导致存储地址出现问题解决方法很简单,新建个转换,将读取文件操作放在里面,最后job运行时带上这个转换就可以了至于linux下读取存放文件路径问题,可以参考如下方法其中一定要设置文件编码为GBK,不然文件保存到hdfs里会成乱码...原创 2018-04-26 14:34:07 · 725 阅读 · 0 评论 -
kettle hive 的一些数据问题
1,日期导入为null的情况,在建hive表时将date类型变为timestamp类型2,分区表建立时,一定要指定分隔符,和普通建表一样吗,如下列代码原创 2018-05-25 09:59:42 · 1107 阅读 · 5 评论 -
kettle hive 表动态分区思路
首先得新建两张表一张按照原始表结构设计,第二张是准备分区的表这边我的分区字段是quotime然后在转换添加sql里面可以这么写这样当第一次运行时会把表数据放到第一张表里,第二次时会把第一张表数据动态分区到第二张分区表里...原创 2018-05-21 16:17:21 · 2176 阅读 · 0 评论 -
kettle hive两种分区方式对比
第一种方式是先将准备好的数据放到hive里,通过动态载入的方式将数据条条加入分区可以参考我写得 kettle hive 表动态分区思路第二种方式是设置变量然后写sql脚本的方式load数据到分区里可以参考kettle hive 添加变量导入分区数据这两种方法适用于不同场合如果是每日更新数据方式,可以采用第二种方法,使分区效率更高,如果是初始导入大量数据的方式,可以采用第一种方法,在准备数据阶段分成...原创 2018-05-25 13:29:13 · 3243 阅读 · 0 评论 -
kettle hive 添加变量导入分区数据
首先在transform里查询出需要的时间比如然后设置这个里面直接获取字段,设置活动范围,如果要在job使用一定要设置变量活动类型然后回到job里,编写sql脚本这儿一定要打上√,不然无法使用变量然后就可以愉快的导入分区数据了...原创 2018-05-24 16:11:53 · 2334 阅读 · 0 评论