![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
优荣月华
这个作者很懒,什么都没留下…
展开
-
Kettle spoon中mysql数据导入hive从建表到导数据解决方案参考
最近在学习大数据的数据迁移,要从关系型数据库里导数据到hive数据库里,其中碰到了很多麻烦,曾试过使用sqoop方式导入数据不过功能不够全面比如表结构及数据筛选问题,现在使用kettle来进行数据迁移工作,其中碰到了很多问题不过都能给出相应的解决方案,如此写下这篇文档供各位工程师参考 那么如何将mysql数据导入到hive里呢,kettle里有自带方法,可以通过表输入和表输出来实现,不过自带的方法...原创 2018-03-15 16:58:02 · 13405 阅读 · 0 评论 -
oracle ORA-01843: 无效的月份问题 解决方法
最近碰到了1843月份问题网上都是什么换客户端的安装英文方法,卵用没有当我查看具体数据时发现根本不是这个原因,而是有的日期确确实实有误比如这样的,完全不是日期类型,但是要求是无法修改数据库,因此可以考虑使用如下方法解决将有误的月份去除...原创 2018-07-20 15:18:15 · 14793 阅读 · 0 评论 -
oracle to_number 转换报无效数字问题
一般情况下to_number在处理经过to_char转换的数据后是不会报无效数字问题的,但是要是数据库里有看不见的非法字符还是会导致无效数字问题,可以参考以下代码去除字符to_number(REGEXP_REPLACE(substr(END_TIME,6,2),'[^0-9]',''))这样返回的值经过了去除非法字符后可以进行大小判断等操作了...原创 2018-07-23 15:22:57 · 19712 阅读 · 0 评论 -
kettle hive 添加变量导入分区数据
首先在transform里查询出需要的时间比如然后设置这个里面直接获取字段,设置活动范围,如果要在job使用一定要设置变量活动类型然后回到job里,编写sql脚本这儿一定要打上√,不然无法使用变量然后就可以愉快的导入分区数据了...原创 2018-05-24 16:11:53 · 2294 阅读 · 0 评论 -
linux 运行kylin自动rebuild脚本
自己写的定时脚本,用于跑kylin的build方法et=$[$(date -d "-1 day -2 hour -59 min" +%s%N)/1000000]curl -X PUT -H "Authorization: Basic QURNSU46S1lMSU4=" -H 'Content-Type: application/json' -d '{"endTime":'${et}', "bui...原创 2018-05-25 17:38:43 · 1365 阅读 · 0 评论 -
kettle hive两种分区方式对比
第一种方式是先将准备好的数据放到hive里,通过动态载入的方式将数据条条加入分区可以参考我写得 kettle hive 表动态分区思路第二种方式是设置变量然后写sql脚本的方式load数据到分区里可以参考kettle hive 添加变量导入分区数据这两种方法适用于不同场合如果是每日更新数据方式,可以采用第二种方法,使分区效率更高,如果是初始导入大量数据的方式,可以采用第一种方法,在准备数据阶段分成...原创 2018-05-25 13:29:13 · 3202 阅读 · 0 评论 -
kettle hive 表动态分区思路
首先得新建两张表一张按照原始表结构设计,第二张是准备分区的表这边我的分区字段是quotime然后在转换添加sql里面可以这么写这样当第一次运行时会把表数据放到第一张表里,第二次时会把第一张表数据动态分区到第二张分区表里...原创 2018-05-21 16:17:21 · 2145 阅读 · 0 评论 -
kettle hive 的一些数据问题
1,日期导入为null的情况,在建hive表时将date类型变为timestamp类型2,分区表建立时,一定要指定分隔符,和普通建表一样吗,如下列代码原创 2018-05-25 09:59:42 · 1069 阅读 · 5 评论 -
linux kettle hadoop copy file 有时无法保存数据问题
通过脚本启动kettle的job时,会出现有时hadoop copy file 没有启动或运行的情况,其实这都是kettle自带的缓存问题,windows下不会出现这种情况,但linux下会导致一些时候没有启动hadoop copy file操作可以采用如下方式编写脚本将kettle里的缓存文件夹删除即可...原创 2018-04-27 13:23:41 · 1058 阅读 · 0 评论 -
kettle linux hadoop 一些问题
最近在写linux使用kettle的定时转换方法,碰见了很恶心的问题原本流程是从本地读取文件到hdfs但是一直提示无法找到hdfs位置猜测原因是转换中的与这个相冲突,导致存储地址出现问题解决方法很简单,新建个转换,将读取文件操作放在里面,最后job运行时带上这个转换就可以了至于linux下读取存放文件路径问题,可以参考如下方法其中一定要设置文件编码为GBK,不然文件保存到hdfs里会成乱码...原创 2018-04-26 14:34:07 · 681 阅读 · 0 评论 -
kettle 数据流合并,新增方法
网上参考了大量方法,有的不知所云,有的版本较低已不再合适,最近的项目中用到了这个经过一天多实验思考终于解决了,在此分享出来1,首先表输入里添加两个数据库,我这儿是mysql和hive的数据库连接然后添加合并记录,里面这么配置这儿要注意,标致字段可以用默认,等会要用到2,添加过滤记录其中一定要配置上面的标准字段然后数据数据流就可以了这儿为什么要这么过滤呢,原因是我再debug时发现的合并标识这儿会将...原创 2018-03-21 17:04:16 · 17116 阅读 · 0 评论 -
kettle 含参hadoop数据导入,过滤
kettle如果数据量过大在job的循环时,可能会出现程序崩溃问题,因此不采用变量传递方法去sql里不断查询数据不过kettle自带的过滤数据无法传入动态参数,因此这儿提供一种方法,将过滤数据导出方法将所有数据先查询出来,放到hadoop里,再通过hadoop里的过滤操作,传入参数将符合的数据拿出来,最后的结果是经过过滤的数据...原创 2018-08-03 15:40:07 · 419 阅读 · 0 评论