(转载)Spark 几种给Dataset增加列的方式、Dataset删除列、Dataset替换null列

最新推荐文章于 2024-05-03 17:12:18 发布

楓尘林间

最新推荐文章于 2024-05-03 17:12:18 发布

阅读量538

点赞数

分类专栏： Spark DateFrame

原文链接：https://www.cnblogs.com/yy3b2007com/p/9872492.html

版权

Spark 同时被 2 个专栏收录

96 篇文章 1 订阅

订阅专栏

DateFrame

47 篇文章 3 订阅

订阅专栏

1.不修改，只是过滤掉含有null值的行。这里是过滤掉key3,key5列中含有null的行

scala>  df.na.drop(Seq("key3","key5")).show
+----+----+----+----+----+
|key1|key2|key3|key4|key5|
+----+----+----+----+----+
| aaa|   1|   2|  t1|   4|
| bbb|   5|   3|  t2|   8|
| ccc|   2|   2|null|   7|
| bbb|   1|   5|  t3|   0|
+----+----+----+----+----+

-2.过滤掉指定的若干列中，有效值少于n列的行这里是过滤掉key1,key2,key3这3列中有效值小于2列的行。最后一行中，这3列有2列都是null，所以被过滤掉了。

scala> df.na.drop(2,Seq("key1","key2","key3")).show
+----+----+----+----+----+
|key1|key2|key3|key4|key5|
+----+----+----+----+----+
| aaa|   1|   2|  t1|   4|
| bbb|   5|   3|  t2|   8|
| ccc|   2|   2|null|   7|
|null|   7|   3|  t1|null|
| bbb|   1|   5|  t3|   0|
+----+----+----+----+----+

参考文献：https://www.cnblogs.com/yy3b2007com/p/9872492.html