kettle 输入输出数据表输入 文本文件输出

0728 导入导出数据流程记录***

以 e_baseinfo为例
1.检查数据库 该表是否可见可查
2.检查该表 时间类型的字段格式并记录
3.创建kettle转换 表输入—> 文本文件输出
4.执行转换
5.上传文本文件到 linux 环境下
6.上传linux数据文件到hdfs文件系统
7.Hive中建表映射
8.检查映射结果是否符合

注意:以下坑都踩得结结实实

一、时间类型的处理方式:
1.因为kettle date类型默认格式是 2020/07/28 15:25:30
斜杠无法被hive识别。
2.文本文件的输出中,选择字段最小宽度,TimeStamp格式统一更改成为Date 格式为 yyyy-MM-dd HH:mm:ss 注意中间的空格是1个
3.文本文件输出注意格式 UTF-8 分隔符为 英文逗号

二、hive 建表注意 对应的数据库 是否正确

三、这里hive 建表时所有的时间类型都设定为STRING

四、输入输出报错 id字段长度21亿过长,改小就好了

五、为什么最好不要直接导入hive中,因为数据来源格式需要统一,如果数据来自mysql 格式定义比较规范,也要注意是否需要更改某些字段的格式。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Kettle是一款用于数据集成的开源工具,可以进行数据的抽取、转换和加载。在Kettle中,可以使用CSV文件作为输入输出源。引用中提到了KettleInput文件夹,其中包含了当前案例的所有数据输入,包括txt、CSV、gz、xls等格式的文件。因此,您可以将CSV文件作为输入源来进行数据处理。 另外,关于Kettle的CSV输入输出,需要注意以下几点: 1. CSV输入:在Kettle中,可以通过使用CSV文件输入步骤来读取CSV文件。您可以选择指定CSV文件的路径和格式,并配置文件的分隔符、文本限定符等选项。然后,可以通过连接到其他转换步骤来处理这些输入数据。 2. CSV输出:同样,在Kettle中,可以使用CSV文件输出步骤将数据导出为CSV文件。您可以指定输出文件的路径和格式,并选择分隔符、文本限定符等选项。然后,可以将数据从其他转换步骤传递给CSV输出步骤,并将其写入CSV文件。 对于Kettle的CSV输入输出,您可以在Kettle的转换设计界面中找到相应的输入输出步骤,按照需要进行配置和使用。如果在使用Kettle过程中遇到问题,可以参考引用中提到的解决方法,并确保驱动包的完整性。 总结起来,Kettle可以通过CSV文件进行数据的输入输出,您可以使用CSV文件作为输入源,并通过CSV文件输出步骤将数据导出为CSV文件。在Kettle的转换设计界面中,您可以找到相应的步骤来进行配置和使用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值