文章目录
建下列JSON格式的数据复制到Linux系统中,并保存命名为employee.json
{ "id":1 , "name":" Ella" , "age":36 }
{ "id":2, "name":"Bob","age":29 }
{ "id":3 , "name":"Jack","age":29 }
{ "id":4 , "name":"Jim","age":28 }
{ "id":4 , "name":"Jim","age":28 }
{ "id":5 , "name":"Damon" }
{ "id":5 , "name":"Damon" }
为employee.json 创建DataFrame, 并写出Scala语句完成下列操作:
(1)查询所有数据;
import spark.implicits._
val df=spark.read.json("file:///home/beyond-dhl/Desktop/sparkSQL/employee.json")
df.show()
(2)查询所有数据,并去除重复的数据;
df.distinct().show()
(3)查询所有数据, 打印时去除id字段;
df.drop(df("id")).show()
(4)筛选出age>30 的记录;
df.filter(df("age")>30).show()
(5)将数据按age分组
df.groupBy(df("age")).count.show()
(6)将数据按neme升序排列
df.sort(df("name").asc).show()
(7)取出前3行数据
df.show(3)
(8)打印时修改name 的列名 为 username
df.select(df("name").as("username")).show()
(9)age 的平均值(agg是聚合操作)
df.agg("age"->"avg").show()
(10)age 的最小值
df.agg("age"->"min").show()