kettle案例4.1–抽取文本数据—TSV文件的抽取
在数据清洗中,数据抽取主要是从一个或多个数据源中获取所需的数据。数据抽取的数据源可以是文本数据、Web数据以及数据库数据。
4.1 抽取文本数据
TSV文件的抽取
TSV是Tab-separated values的缩写,即制表符分隔值。
制表符文件:使用制表符分隔数据字段的文件被称为。
制表符文件中的数据以表格结构储存,每一行储存一条记录,每条记录的各个字段间使用制表符分隔。大多数的操作系统和常用文本编辑器中,按一次“Tab”键表示默认插入一个制表符。
案例介绍
通过Kettle工具抽取TSV文件tsv_extract.tsv中的数据保存至数据库extract中的数据表tsv中。
数据准备
现有TSV文件tsv_extract.tsv,该文件的内容如下所示。
步骤
1.打开Kettle工具,创建转换
通过使用Kettle工具,创建一个转换tsv