4.1.1 TSV文件的抽取
1. 打开Kettle工具,创建转换。
通过使用Kettle工具,创建一个转换,添加“文本文件输入”控件、“表输出”控件以及Hop跳连接线,具体如图所示。
2.配置文本文件输入控件 。
双击“文本文件输入”控件,进入“文本文件输入”界面。单击【浏览】按钮,选择要抽取的文件tsv_extract.tsv,单击【增加】按钮,将要抽取的TSV文件添加到转换“tsv_extract”中,进行修改相应的字段。
数据预览
3.配置表输出控件。
双击“表输出”控件,进入“表输出”控件的配置界面。配置数据库连接,单击目标表右侧的【浏览】按钮,获取目标表tsv,勾选“指定数据库字段”复选框,单击“数据库字段”选项卡,再单击【输入字段映射】按钮,弹出“映射匹配”对话框,将“源字段”选项框的字段和“目标字段”选项框对应的字段进行映射匹配。
数据表tsv代码如下:
create table `tsv` (
`id` varchar (60),
`name` varchar (60),
`data` varchar (60)
);
效果如下:
4.运行tsv_extract转换。
效果图如下:
4.1.2 CSV文件的抽取
1. 打开Kettle工具,创建转换。
通过使用Kettle工具,创建一个转换,添加“CSV文件输入”控件、“表输出”控件以及Hop跳连接线,具体如图所示。
2.配置CSV文件输入控件 。
双击“文本文件输入”控件,进入“文本文件输入”界面。单击【浏览】按钮,选择要抽取的文件csv_extract.csv,单击【获取字段】按钮,Kettle自动检索CSV文件,并进行预览。
预览结果如下:
3.配置表输出控件 。
双击“表输出”控件,进入“表输出”控件的配置界面。配置数据库连接,单击目标表右侧的【浏览】按钮,获取目标表csv_extract,勾选“指定数据库字段”复选框,单击“数据库字段”选项卡,再单击【输入字段映射】按钮,弹出“映射匹配”对话框,将“源字段”选项框的字段和“目标字段”选项框对应的字段进行映射匹配。
csv_extract数据表代码如下:
create table `csv_extract` (
`CustomerID` varchar (60),
`Gender` varchar (60),
`Age` varchar (60),
`Annual Income (k$)` varchar (60),
`Spending Score (1-100)` varchar (60)
);
效果如下:
4.运行csv_extract转换 。
效果如下:
到此,数据表csv已成功插入100条数据(这里只展示部分)。