hadoop
优荣月华
这个作者很懒,什么都没留下…
展开
-
Kettle spoon中mysql数据导入hive从建表到导数据解决方案参考
最近在学习大数据的数据迁移,要从关系型数据库里导数据到hive数据库里,其中碰到了很多麻烦,曾试过使用sqoop方式导入数据不过功能不够全面比如表结构及数据筛选问题,现在使用kettle来进行数据迁移工作,其中碰到了很多问题不过都能给出相应的解决方案,如此写下这篇文档供各位工程师参考 那么如何将mysql数据导入到hive里呢,kettle里有自带方法,可以通过表输入和表输出来实现,不过自带的方法...原创 2018-03-15 16:58:02 · 13453 阅读 · 0 评论 -
kettle 数据流合并,新增方法
网上参考了大量方法,有的不知所云,有的版本较低已不再合适,最近的项目中用到了这个经过一天多实验思考终于解决了,在此分享出来1,首先表输入里添加两个数据库,我这儿是mysql和hive的数据库连接然后添加合并记录,里面这么配置这儿要注意,标致字段可以用默认,等会要用到2,添加过滤记录其中一定要配置上面的标准字段然后数据数据流就可以了这儿为什么要这么过滤呢,原因是我再debug时发现的合并标识这儿会将...原创 2018-03-21 17:04:16 · 17196 阅读 · 0 评论 -
linux kettle hadoop copy file 有时无法保存数据问题
通过脚本启动kettle的job时,会出现有时hadoop copy file 没有启动或运行的情况,其实这都是kettle自带的缓存问题,windows下不会出现这种情况,但linux下会导致一些时候没有启动hadoop copy file操作可以采用如下方式编写脚本将kettle里的缓存文件夹删除即可...原创 2018-04-27 13:23:41 · 1091 阅读 · 0 评论 -
kettle 含参hadoop数据导入,过滤
kettle如果数据量过大在job的循环时,可能会出现程序崩溃问题,因此不采用变量传递方法去sql里不断查询数据不过kettle自带的过滤数据无法传入动态参数,因此这儿提供一种方法,将过滤数据导出方法将所有数据先查询出来,放到hadoop里,再通过hadoop里的过滤操作,传入参数将符合的数据拿出来,最后的结果是经过过滤的数据...原创 2018-08-03 15:40:07 · 463 阅读 · 0 评论