distinct和dropDuplicates都是用来进行去重的。
区别在于distinct是根据每一条数据进行完整内容的比对和去重,dropDuplicates可以根据指定的字段进行去重。
employeeDF.distinct().show()
employeeDF.dropDuplicates(Seq("name")).show()
distinct和dropDuplicates都是用来进行去重的。
区别在于distinct是根据每一条数据进行完整内容的比对和去重,dropDuplicates可以根据指定的字段进行去重。
employeeDF.distinct().show()
employeeDF.dropDuplicates(Seq("name")).show()