pyspark笔记 Timestamp 类型的比较

最新推荐文章于 2023-12-04 22:28:52 发布

UQI-LIUWJ

最新推荐文章于 2023-12-04 22:28:52 发布

阅读量409

点赞数

分类专栏： python库整理文章标签：笔记 java android

本文链接：https://blog.csdn.net/qq_40206371/article/details/132073631

版权

python库整理专栏收录该内容

325 篇文章 48 订阅

订阅专栏

最近写pyspark遇到的一个小问题。

假设我们有一个pyspark DataFrame叫做dart

首先将dart里面'timestamp'这一列转化成Timestamp类型


dart=dart.withColumn('timestamp',col('timestamp').cast(TimestampType()))

查看timestamp的前5个元素

dart.select('timestamp').show(5,truncate=False)
'''
+-----------------------+
|timestamp              |
+-----------------------+
|2023-03-31 17:01:41.633|
|2023-03-31 18:03:44.432|
|2023-03-31 17:45:54.505|
|2023-03-31 17:21:30.438|
|2023-03-31 17:07:57.658|
+-----------------------+
only showing top 5 rows
'''

我们现在希望找到2023年4/1日及之后的所有行，于是我们有如下几种实现方式

d1 = dart.filter(dart['timestamp'] >= '2023-04-01 00:00:00')
d2 = dart.filter(dart['timestamp'] >= '2023-04-01 0:0:0')
d3 = dart.filter(dart['timestamp'] >= '2023-04-01 00:00:00.000')

from datetime import datetime
d4 = dart.filter(dart['timestamp'] >= datetime(2023,4,1,0,0,0))


d1.count()
#9720617
d2.count()
#5342819
d3.count()
#9720617
d4.count()
#9720617

为什么d2不一样呢？因为所虽然此时timestamp列已经是Timestamp类型了，但由于d1,d2,d3比较的是一个字符串，所以filter比较的时候，又把对应的timestamp转化回string了

s='2023-04-01 09:30:31.154'
c1='2023-04-01 0:0:0'
c2='2023-04-01 00:00:00'
s>c1,s>c2
#(False, True)

比如这个例子，s虽然也是4/1及之后的时间，但是他比c1小，也就是说不会被d2捕获

UQI-LIUWJ

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录