pyspark基础操作

最近在公司经常会用到一些spark,一般都是使用python进行处理,一开始使用还是有点陌生,看了几篇往上的文章也简单的操作了几天,通过写这篇文章再去巩固一下基础知识~持续更新
提示(tips)

  1. 这里要说一下spark中每一个环节都是分开的;
  2. spark函数使用的是驼峰命名法;
  3. 代码写在一行上,如果过长换行必须有"",否则会报错(此坑已踩!!);

基础查询
select
where ->> where/filter
group by ->> groupby
case when
函数对比

操作 SQL/HIVE SparkSQL
选择 select df.select()
筛选 where df.where/filter()
分组 group by df.groupby()
条件 case when from pyspark.sql import functions as F F.when(condition, value1).otherwise(value2)
去重 distinct df.distinct()
新增一列 select中直接新增 df.withColumn(列名,条件)

更新:at 2021-08-08 23:48 from 北京


读取数据

  1. 读取parquet后缀的文件
    pandas读取
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值