ETL笔记——第四章 数据抽取(抽取文本数据)

一、TSV文件抽取

通过Kettle工具抽取TSV文件tsv_extract.tsv中的数据保存至数据库test中的数据表tsv中。

1、数据准备

现有一个名为tsv_extract.tsv的TSV文件,该文件的内容如图所示。

 

2、tsv_extract转换

(1)通过使用Kettle工具,创建一个转换tsv_extract,添加“文本文件输入”控件、“表输出”控件以及Hop跳连接线,具体如图所示。

(2)各控件配置

1)配置文本文件输入控件:

双击“文本文件输入”控件,进入“文本文件输入”界面。

单击【浏览】按钮,选择要抽取的文件tsv_extract.tsv。

单击【增加】按钮,将要抽取的TSV文件添加到转换“tsv_extract”中。

单击“内容”选项卡,清除分隔符处默认分隔符“;”并单击【Insert TAB】按钮,在分隔符处插入一个制表符;取消勾选“头部”复选框。

点击“字段”选项卡,切换到“字段”选项卡界面。根距TSV文件的内容进行如下配置。

 

单击【预览记录】按钮,查看文件tsv_extract.tsv的数据是否成功抽取到文本文件输入流中。

 

 

2)配置表输出控件:

单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。

单击目标表右侧的【浏览】按钮,获取目标表,即数据表tsv。然后勾选“指定数据库字段”复选框。

单击“数据库字段”选项卡,再单击【输入字段映射】按钮,弹出“映射匹配”对话框,将“源字段”选项框的字段和“目标字段”选项框对应的字段进行映射匹配。

 

 “表输出”控件配置的最终效果,具体如图所示。

 

 

3、运行tsv_extract转换

运行创建的tsv_extract转换。

 

通过SQLyog工具,查看数据表tsv是否已成功插入五行数据。

 

二、CSV文件抽取

通过Kettle工具抽取CSV文件csv_extract.csv中的数据并保存至数据库test的数据表csv中。

1、数据准备

现有一个名为csv_extract.csv的CSV文件,该文件的内容如图所示。

2、csv_extract转换

(1)通过使用Kettle工具,创建一个转换csv_extract,并添加“CSV文件输入”控件、“表输出”控件以及Hop跳连接线,具体如图所示。

(2)各控件配置

1)配置CSV文件输入控件:

单击【浏览】按钮,选择要抽取的文件csv_extract.csv。

单击【获取字段】按钮,Kettle自动检索CSV文件,并对文件中的字段类型、格式、长度、精度等属性进行分析。

单击【预览】按钮,查看文件csv_extract.csv的数据是否抽取到CSV文件输入流中。

2)配置表输出控件:

单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。

单击目标表右侧的【浏览】按钮,获取目标表,即数据表csv;勾选“指定数据库字段”的复选框。

单击“数据库字段”选项卡,再单击【输入字段映射】按钮,弹出“映射匹配”对话框,将“源字段”选项框的字段和“目标字段”选项框对应的字段进行映射匹配。

“表输出”控件配置的最终效果,具体如图所示。

 

3、运行csv_extract转换

运行创建的csv_extract转换。

通过SQLyog工具,查看数据表csv是否已成功插入100行数据。

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值