实验3.1 文件的导入导出
一、实验目的
利用Insight的导入导出相关组件,完成文件类型数据预处理。
二、实验要求
熟练掌握文件类型组件的使用,完成文本,Excel,XML,JSON等文件的导入导出。
三、实验原理
通过导入相关组件导入相应类型的文件,通过导出相关组件导出相应类型的文件,再通过“追加流”设置2个数据源的合并顺序,然后通过“追加流”进行多个据源的合并。
四、实验步骤
实验3.1文件的导入导出实验所需的4个文件-Hadoop文档类资源-CSDN下载
0. 下载文件数据
wget http://10.90.3.2/zlh/03/students.csv
wget http://10.90.3.2/zlh/03/students.xlsx
wget http://10.90.3.2/zlh/03/core-site.xml
wget http://10.90.3.2/zlh/03/core-site.json
1.csv文件的导入导出
1.1 创建转换:
打开Insight DI软件,点击,在下拉菜单中点击选择,
这样创建了一个转换文件。我们点击file下的save,重命名该转换文件,保存在某个指定的路径。
1.2 添加步骤,连接条,添加注释
1.3 设置导入步骤
1.4 设置导出步骤