初识大数据(十二)-----Spark SQL基本操作

1、Parquet是什么?

1)Parquet是列式存储格式,是大数据时代文件存储格式的首选标准.
2)Parquet是Spark默认的存储格式

2、Spark SQL操作Parquet

1)加载数据

sparkSession.read.parquet("/nginx/42325.parquet")

2)写入数据

df.write.mode(Savemode.Overwrite).parquet(“/path/to”)

3、查询和过滤

1)show()
在这里插入图片描述
2、collect()
获取所有数据到数组,返回Array对象
collectAsList()
获取所有数据到list,返回list对象

4、查询指定的字段

select()
在这里插入图片描述

5、查询若干行数据

在这里插入图片描述

6、条件查询where/filter

在这里插入图片描述

7.运算符

在这里插入图片描述

8、多条件查询

在这里插入图片描述

9、聚合操作

groupby和agg
按照省份分组统计人数

df.groupBy(col(“province”).count.show
)

在这里插入图片描述
使用DataSet对象操作

ds.groupBy($ "city", $ "op_phone").count.withColumnRenamed("count","num")
.sort($"num".desc)
.show

10、分组后的聚合操作

在这里插入图片描述
欲了解更多相关知识,请关注公众后:架构师Plus.
公众号里有彩蛋哦,有一个去视频水印的工具,很好用哦.
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值