spark的API中可以使用dropDuplicate()方法根据指定列进行去重。
Dataset<T> |
dropDuplicates()
Returns a new Dataset that contains only the unique rows from this Dataset.
|
|
本文介绍了如何使用Spark的API,通过Java和Scala两种方式实现Dataset的去重操作,重点在于根据指定列保留最后一条数据。
spark的API中可以使用dropDuplicate()方法根据指定列进行去重。
Dataset<T> |
dropDuplicates()
Returns a new Dataset that contains only the unique rows from this Dataset.
|
|
892

被折叠的 条评论
为什么被折叠?