实验目的:
1.熟悉Linux系统、MySQL、Insight等系统和软件的安装和使用;
2.了解大数据处理的基本流程;
3.熟悉数据抽取、转换、装在方法;
4.熟悉在不同类型数据库之间进行数据相互导入导出
实验内容:
本实验对两个数据源:employee_info_table.sql代表员工信息表;sales_info_table.sql表示销售信息表做数据预处理。
实验过程:
1.实验准备:
1.1启动数据库:
sudo -i
service mysql start
mysql -uroot -p123456
show databases
1.2使用数据库mysql
use mysql
1.3导入sql文件
source employee_info_table.sql;
source sales_info_table.sql;
2.实验步骤:
2.1. Insight链接mysql数据库:
创建transformation
连接数据库Mysql_ETL_A,同样的方式连接Mysql_ETL_B
完成后:
2.2 抽取数据库中数据:
把控件table input拖拽到工作区添加数据文件Mysql_ETL_A,命名student_info;同样的方式添加Mysql_ETL_B,命名
完成后:
3.数据转换
3.1 对学生信息表进行整理排序
将sort rows设置成student_info的下一步,添加字段,最后只留下emlioyee_number.
3.2 对销售信息表进行整理,将select values设置成sales_info的下一步,添加字段,在select&alter栏中只留下emloyee_number、sales、profits字段。
`
在 Select values 后连接一个新的 Sort rows,按照 Employee_number进行升序排序
3.3 完成两个信息表的整合
在merge join后面连接一个新的select values,在remove中留下department,other,employee_number_1.
4.数据装载
把整理好的数据表保存到数据库中
4.1 在select values连接table output,设置并设置。
完成后退出窗口,并运行:
最后打开Table output表即可查看数据预处理后的信息