pyspark中dataframe缺失值填充

最新推荐文章于 2024-06-17 12:29:59 发布

何不快哉

最新推荐文章于 2024-06-17 12:29:59 发布

阅读量6.5k

点赞数

分类专栏：大数据文章标签： spark dataframe

本文链接：https://blog.csdn.net/qq_38092934/article/details/97680140

版权

在工作中我们经常面对各种缺失值的处理，当使用pandas，缺失值可以使用fillna，指定method=ffill或bfill就能实现
缺失值的前向或后向填充。但是在spark应用中，需要稍微做一些改变。比如说我们先创建一个DataFrame：

df = spark.createDataFrame(
	[("a", 1, '2019-06-15 13:20'),
	("a",2, None),("a",3, None),
	("a",4, '2019-06-15 13:40'),
	("a",5, '2019-06-15 14:40'),
	("a",6, None),
	("b",1, '2019-06-15 13:42'),
	("b",2, None),
	("b",3, None)], 
	["id","num", "time"]
)
df.show()

+---+---+---------------

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

何不快哉

关注关注

0
点赞
踩
13

收藏

觉得还不错? 一键收藏
4
评论
pyspark中dataframe缺失值填充

在工作中我们经常面对各种缺失值的处理，当使用pandas，缺失值可以使用fillna，指定method=ffill或bfill就能实现缺失值的前向或后向填充。但是在spark应用中，需要稍微做一些改变。比如说我们先创建一个DataFrame：df = spark.createDataFrame( [("a", 1, '2019-06-15 13:20'), ("a",2, None),("...
复制链接

扫一扫