4.1 抽取文本数据

4.1.1 TSV文件的抽取

1. 打开Kettle工具,创建转换。

通过使用Kettle工具,创建一个转换,添加“文本文件输入”控件、“表输出”控件以及Hop跳连接线,具体如图所示。

2.配置文本文件输入控件 。

双击“文本文件输入”控件,进入“文本文件输入”界面。单击【浏览】按钮,选择要抽取的文件tsv_extract.tsv,单击【增加】按钮,将要抽取的TSV文件添加到转换“tsv_extract”中,进行修改相应的字段。

数据预览

3.配置表输出控件。

双击“表输出”控件,进入“表输出”控件的配置界面。配置数据库连接,单击目标表右侧的【浏览】按钮,获取目标表tsv,勾选“指定数据库字段”复选框,单击“数据库字段”选项卡,再单击【输入字段映射】按钮,弹出“映射匹配”对话框,将“源字段”选项框的字段和“目标字段”选项框对应的字段进行映射匹配。

数据表tsv代码如下:

create table `tsv` (
	`id` varchar (60),
	`name` varchar (60),
	`data` varchar (60)
); 

效果如下:

4.运行tsv_extract转换。

   效果图如下:

 

 4.1.2 CSV文件的抽取

1. 打开Kettle工具,创建转换。

通过使用Kettle工具,创建一个转换,添加“CSV文件输入”控件、“表输出”控件以及Hop跳连接线,具体如图所示。

2.配置CSV文件输入控件 。

双击“文本文件输入”控件,进入“文本文件输入”界面。单击【浏览】按钮,选择要抽取的文件csv_extract.csv,单击【获取字段】按钮,Kettle自动检索CSV文件,并进行预览。

预览结果如下:

3.配置表输出控件 。

双击“表输出”控件,进入“表输出”控件的配置界面。配置数据库连接,单击目标表右侧的【浏览】按钮,获取目标表csv_extract,勾选“指定数据库字段”复选框,单击“数据库字段”选项卡,再单击【输入字段映射】按钮,弹出“映射匹配”对话框,将“源字段”选项框的字段和“目标字段”选项框对应的字段进行映射匹配。

csv_extract数据表代码如下:

create table `csv_extract` (
	`CustomerID` varchar (60),
    `Gender` varchar (60),
	`Age` varchar (60),
    `Annual Income (k$)` varchar (60),
	`Spending Score (1-100)` varchar (60)
); 

效果如下:

4.运行csv_extract转换 。

效果如下:

到此,数据表csv已成功插入100条数据(这里只展示部分)。 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值