最近写pyspark遇到的一个小问题。
假设我们有一个pyspark DataFrame叫做dart
首先将dart里面'timestamp'这一列转化成Timestamp类型
dart=dart.withColumn('timestamp',col('timestamp').cast(TimestampType()))
查看timestamp的前5个元素
dart.select('timestamp').show(5,truncate=False)
'''
+-----------------------+
|timestamp |
+-----------------------+
|2023-03-31 17:01:41.633|
|2023-03-31 18:03:44.432|
|2023-03-31 17:45:54.505|
|2023-03-31 17:21:30.438|
|2023-03-31 17:07:57.658|
+-----------------------+
only showing top 5 rows
'''
我们现在希望找到2023年4/1日及之后的所有行,于是我们有如下几种实现方式
d1 = dart.filter(dart['timestamp'] >= '2023-04-01 00:00:00')
d2 = dart.filter(dart['timestamp'] >= '2023-04-01 0:0:0')
d3 = dart.filter(dart['timestamp'] >= '2023-04-01 00:00:00.000')
from datetime import datetime
d4 = dart.filter(dart['timestamp'] >= datetime(2023,4,1,0,0,0))
d1.count()
#9720617
d2.count()
#5342819
d3.count()
#9720617
d4.count()
#9720617
为什么d2不一样呢?因为所虽然此时timestamp列已经是Timestamp类型了,但由于d1,d2,d3比较的是一个字符串,所以filter比较的时候,又把对应的timestamp转化回string了
s='2023-04-01 09:30:31.154'
c1='2023-04-01 0:0:0'
c2='2023-04-01 00:00:00'
s>c1,s>c2
#(False, True)
比如这个例子,s虽然也是4/1及之后的时间,但是他比c1小,也就是说不会被d2捕获