sparksql(2)

接上篇student表


也就是在pyspark中可以有两种方式:1,agg(汇总)  2,sql语句  查询

接着实现自定义函数

(1)这是用concat()函数将两个连接不是自定义的


(2)用自定义函数实现连接(sql 方式)



如果在查询语句时需要复杂的编程,需要定义函数,上方是sql方式调用自定函数sqlContext-----------下边注册函数(registerFunction,spark是sqlsession 下边没有)

另一种方式,不用sql自定义注册:


spDf.na.fill({'列名1':0,'列名2':0})----------这个方法函数列如果值是空值fill用0添充,缺失值的添充是datafram下面的一个na的添充方法fill

去除重复函数:


 看下去除重复后的效果(1)

(2)第二种去除重复


datafram中删除空值:df.na.drop().show()





  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值