SparkSQL异常数据清洗API

本文详细阐述了SparkSQL中的数据清洗工具,包括去重、处理缺失值的方法,适用于大数据预处理。
摘要由CSDN通过智能技术生成

SparkSQL数据清洗API

但是在大数据整个生产过程中,需要先对数据进行数据清洗,将杂乱无章的数据整理为符合后面处理要求的规整数据,spark提供了一些api方便我们进行数据清洗

1. 去重方法dropDuplicates()

功能:对DF的数据进行去重,如果重复数据有多条,取第一条

  • 去重API dropDuplicates,无参数时是对数据进行整体去重
    df.dropDuplicate().show()
  • API同样可以针对字段进行去重,如下传入age字段,表示只要年龄一样就认为你是重复数据,传入age和job表示结合年龄和job来去重
    df.dropDuplicates([‘age’, ‘job’]).show()
2. 缺失值处理dropna()

def dropna(self,how=‘any’,thresh=None,subset=None):
返回的市一个没有(指定)空值的dataFrame
param how:'any’or ‘all’,如果参数为any(默认any),那么只要df一行包含空值,就会被去除,如果是all,只会把一行都为空的去除。
param thresh:int,default None
表示这一行的数据有效的(非空)的数据必须达到该参数设定的阈值,如果没达到,那么就删除该行数据
param subset:指定列对缺失值判断,该列缺失则删除该行数据

需要注意的是,如果我们结合thres和subset,意义并不是二者的叠加,而是在指定的subset中,列数要达到thres阈值,而不是任意的列数非空达到阈值和保存subset指定的列
df.dropna(thres=2, [‘name’, ‘age’])
标识’name’和’age’列至少两列都不为空才保留

3. 缺失值填充fillna()
  • 如果不指定列,默认把所有空值都填充为指定数据
    df.fillna(“N/A”)
  • 如果指定列,则填充指定列的空值
    df.fillna(“N/A”, subset=[‘job’])
  • 想要指定多个列不同的填充内容,可以定义一个字典,根据字典对应的值来填充
    df.fillna({“name”: “N/A”, “age”: 0})
  • 21
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值