dataframe 提取月数据_Spark DataFrame TimestampType-如何从字段中获取年、月、日值？...

最新推荐文章于 2023-01-12 13:36:18 发布

TJNiiiaaann

最新推荐文章于 2023-01-12 13:36:18 发布

阅读量766

点赞数

文章标签： dataframe 提取月数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_36124750/article/details/114492746

版权

自Spark 1.5以来，您可以使用许多数据处理功能：

import datetime

from pyspark.sql.functions import year, month, dayofmonth

elevDF = sc.parallelize([

(datetime.datetime(1984, 1, 1, 0, 0), 1, 638.55),

(datetime.datetime(1984, 1, 1, 0, 0), 2, 638.55),

(datetime.datetime(1984, 1, 1, 0, 0), 3, 638.55),

(datetime.datetime(1984, 1, 1, 0, 0), 4, 638.55),

(datetime.datetime(1984, 1, 1, 0, 0), 5, 638.55)

]).toDF(["date", "hour", "value"])

elevDF.select(

year("date").alias('year'),

month("date").alias('month'),

dayofmonth("date").alias('day')

).show()

# +----+-----+---+

# |year|month|day|

# +----+-----+---+

# |1984| 1| 1|

# |1984| 1| 1|

# |1984| 1| 1|

# |1984| 1| 1|

# |1984| 1| 1|

# +----+-----+---+

与任何其他RDD一样，您可以使用简单的map：elevDF = sqlContext.createDataFrame(sc.parallelize([

Row(date=datetime.datetime(1984, 1, 1, 0, 0), hour=1, value=638.55),

Row(date=datetime.datetime(1984, 1, 1, 0, 0), hour=2, value=638.55),

Row(date=datetime.datetime(1984, 1, 1, 0, 0), hour=3, value=638.55),

Row(date=datetime.datetime(1984, 1, 1, 0, 0), hour=4, value=638.55),

Row(date=datetime.datetime(1984, 1, 1, 0, 0), hour=5, value=638.55)]))

(elevDF

.map(lambda (date, hour, value): (date.year, date.month, date.day))

.collect())

结果是：[(1984, 1, 1), (1984, 1, 1), (1984, 1, 1), (1984, 1, 1), (1984, 1, 1)]

顺便说一下：datetime.datetime无论如何都要存储一个小时，所以单独保存它似乎是在浪费内存。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。