描述一下需求
有个表的结构如下
Emp (
Eno CHAR(4),
Ename CHAR(8),
Esex CHAR(1) CHECK(Esex IN ('M','F')),
EDno CHAR(4) REFERENCES Dept (Dno),
PRIMARY KEY (Eno)
);
Dept (
Dno CHAR(4) NOT NULL UNIQUE,
Dname CHAR(20),
Daddr CHAR(30)
);
上表简单的分为Emp.txt和Dept.txt两个文本文件,数据具体内容自定义
用Spark和Spark SQL分别实现以下功能:
1.提取Eno,Ename,Esex,Dname,Daddr
2.用Avro格式将数据存到指定目录下
在这里主要想记录的是:
1.使用spark,sql如何进行表的连接(Join)
2.如何将数据保存为需要的格式