pyspark重复数据中取时间最新的（最简洁明了）

最新推荐文章于 2023-08-17 15:22:12 发布

小小码农JACK

最新推荐文章于 2023-08-17 15:22:12 发布

阅读量434

点赞数

分类专栏：计算机基础

本文链接：https://blog.csdn.net/haoshan4783/article/details/109585721

版权

>>> col_names = ["name", "date", "score"]
>>> value = [
...     ("Ali", "20200101", 10.0),
...     ("Ali", "20200102", 10.0),
...     ("Ali", "20200103", 10.0),
...     ("Ali", "20200104", 10.0),
...     ("Ali", "20200101", 9.0),
...     ("Ali", "20200102", 9.0),
... ]
>>> df = spark.createDataFrame(value, col_names)
>>> df.show()
+----+--------+-----+
|name|    date|score|
+----+--------+-----+
| Ali|20200101| 10.0|
| Ali|20200102| 10.0|
| Ali|20200103| 10.0|
| Ali|20200104| 10.0|
| Ali|20200101|  9.0|
| Ali|20200102|  9.0|
+----+--------+-----+
>>> window=Window.partitionBy("name",'score').orderBy(df["date"].desc())
>>> df=df.withColumn('topn',F.row_number().over(window))
>>> df.show()
+----

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

小小码农JACK

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
pyspark重复数据中取时间最新的（最简洁明了）

>>> col_names = ["name", "date", "score"]>>> value = [... ("Ali", "20200101", 10.0),... ("Ali", "20200102", 10.0),... ("Ali", "20200103", 10.0),... ("Ali", "20200104", 10.0),... ("Ali", "20200101", 9.0),...
复制链接

扫一扫