Spark数据处理实战之列空值&新增列处理

本文详细介绍了在Spark Dataset/DataFrame中处理列空值和新增列的方法,包括withColumn函数的使用、列空值的判断、删除和填充,以及如何查询空值列。通过实例讲解,帮助读者掌握DataFrame的列处理技巧。
摘要由CSDN通过智能技术生成

在spark dataset/dataframe操作过程中,我们经常会遇到对于一个列值的一些判断情况,是否为NULL,创建一个新列等,本文讲解了常用的增加列的方法,并且对于列空值判断,填充处理以及查询的api做了详细的描述和实例讲解,阅读完可以掌握列的处理相关方法。

增加列

Spark dataframe提供了withColumn函数来进行添加列或者替换列<指定的列名字跟之前的一样时候>,然后返回一个新的dataframe,添加列有以下几种方法:

  1. 利用常量进行增加列,固定值

    import org.apache.spark.sql.functions.lit
    df.withColumn("new_column", lit(1)/lit("name"))  
    
  2. 利用当前已有列变换新增

     df.withColumn("rsrp2", df("rsrp") * 2)
    
  3. select增加列

    df.select(
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值