Spark统计DataFrame每列的缺失率

最新推荐文章于 2022-06-10 06:58:08 发布

huangqihao723

最新推荐文章于 2022-06-10 06:58:08 发布

阅读量2.7k

点赞数 1

分类专栏： pyspark 文章标签： spark

本文链接：https://blog.csdn.net/huangqihao723/article/details/105076072

版权

pyspark 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

// scala 版本

import org.apache.spark.sql.functions.col

// tax_info 为一个dataframe

val columns=tax_info.columns
val cnt=tax_info.count()

// 统计每列的缺失记录数
val missing_cnt=columns.map(x=>data.select(col(x)).where(col(x).isNull).count)

// 统计每列的缺失率，并保留4位小数
val missing_rate=columns.map(x=>((data.select(col(x)).where(col(x).isNull).count.toDouble/cnt).formatted("%.4f")))

// 将列名和缺失率拼接起来，组成一个dataframe
val  
result=sc.parallelize(missing_cnt.zip(columns)).toDF("missing_rate","column_name")

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

huangqihao723

关注关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Spark统计DataFrame每列的缺失率

// scala 版本import org.apache.spark.sql.functions.col// tax_info 为一个dataframeval columns=tax_info.columnsval cnt=tax_info.count()// 统计每列的缺失记录数val missing_cnt=columns.map(x=>data.select(co...
复制链接

扫一扫