1.准备数据文件
- 在
/home
目录里创建student.txt
文件 - 将
student.txt
上传到HDFS的/student/input
目录
2.启动Spark Shell
3.显示数据集内容
4.定义学生样例类将数据集转换成学生数据集
- 执行命令:
case class Student(id: Int, name: String, gender: String, age: Int)
- val studentDS = ds.map(line => {
val fields = line.split(",")
val id = fields(0).toInt
val name = fields(1)
val gender = fields(2)
val age = fields(3).toInt
Student(id, name, gender, age)
}
) - 显示数据
- 分组统计男女生总年龄、分组统计男女生平均年龄、分组统计男女生最大年龄