0728 导入导出数据流程记录***
以 e_baseinfo为例
1.检查数据库 该表是否可见可查
2.检查该表 时间类型的字段格式并记录
3.创建kettle转换 表输入—> 文本文件输出
4.执行转换
5.上传文本文件到 linux 环境下
6.上传linux数据文件到hdfs文件系统
7.Hive中建表映射
8.检查映射结果是否符合
注意:以下坑都踩得结结实实
一、时间类型的处理方式:
1.因为kettle date类型默认格式是 2020/07/28 15:25:30
斜杠无法被hive识别。
2.文本文件的输出中,选择字段最小宽度,TimeStamp格式统一更改成为Date 格式为 yyyy-MM-dd HH:mm:ss 注意中间的空格是1个
3.文本文件输出注意格式 UTF-8 分隔符为 英文逗号
二、hive 建表注意 对应的数据库 是否正确
三、这里hive 建表时所有的时间类型都设定为STRING
四、输入输出报错 id字段长度21亿过长,改小就好了
五、为什么最好不要直接导入hive中,因为数据来源格式需要统一,如果数据来自mysql 格式定义比较规范,也要注意是否需要更改某些字段的格式。