在数据清洗中,数据抽取主要是从一个或多个数据源中获取所需的数据。数据抽取的数据源可以是文本数据、Web数据以及数据库数据。
TSV文件的抽取
TSV是Tab-separated values的缩写,即制表符分隔值。使用制表符分隔数据字段的文件被称为制表符文件。制表符文件中的数据以表格结构储存,每一行储存一条记录,每条记录的各个字段间使用制表符分隔。大多数的操作系统和常用文本编辑器中,按一次“Tab”键表示默认插入一个制表符。
通过Kettle工具抽取TSV文件tsv_extract.tsv中的数据保存至数据库extract中的数据表tsv中。
数据准备
现有一个名为tsv_extract.tsv的TSV文件,该文件的内容如图所示。
打开Kettle工具,创建转换
通过使用Kettle工具,创建一个转换tsv_extract,添加“文本文件输入”控件、“表输出”控件以及Hop跳连接线,具体如图所示。
双击“文本文件输入”控件,进入“文本文件输入”界面
单击【预览记录】按钮,查看文件tsv_extract.tsv的数据是否成功抽取到文本文件输入流中。
双击“表输出”控件,进入“表输出”控件的配置界面。
去链接数据库
单击“数据库字段”选项卡,再单击【输入字段映射】按钮,弹出“映射匹配”对话框,将“源字段”选项框的字段和“目标字段”选项框对应的字段进行映射匹配。
表输出”控件配置的最终效果,具体如图所示。
最后的运行情况,如下图所示。
结果如下
通过navicat工具,查看数据表tsv是否已成功插入五行数据。
小结:
最终,我们完成了第四章第一个kettle的小案例 ,也熟知了kettle最简单和最基本的运用,明白了etl的实际用途。