dataframe 提取月数据_Spark DataFrame TimestampType-如何从字段中获取年、月、日值?...

自Spark 1.5以来,您可以使用许多数据处理功能:

import datetime

from pyspark.sql.functions import year, month, dayofmonth

elevDF = sc.parallelize([

(datetime.datetime(1984, 1, 1, 0, 0), 1, 638.55),

(datetime.datetime(1984, 1, 1, 0, 0), 2, 638.55),

(datetime.datetime(1984, 1, 1, 0, 0), 3, 638.55),

(datetime.datetime(1984, 1, 1, 0, 0), 4, 638.55),

(datetime.datetime(1984, 1, 1, 0, 0), 5, 638.55)

]).toDF(["date", "hour", "value"])

elevDF.select(

year("date").alias('year'),

month("date").alias('month'),

dayofmonth("date").alias('day')

).show()

# +----+-----+---+

# |year|month|day|

# +----+-----+---+

# |1984| 1| 1|

# |1984| 1| 1|

# |1984| 1| 1|

# |1984| 1| 1|

# |1984| 1| 1|

# +----+-----+---+

与任何其他RDD一样,您可以使用简单的map:elevDF = sqlContext.createDataFrame(sc.parallelize([

Row(date=datetime.datetime(1984, 1, 1, 0, 0), hour=1, value=638.55),

Row(date=datetime.datetime(1984, 1, 1, 0, 0), hour=2, value=638.55),

Row(date=datetime.datetime(1984, 1, 1, 0, 0), hour=3, value=638.55),

Row(date=datetime.datetime(1984, 1, 1, 0, 0), hour=4, value=638.55),

Row(date=datetime.datetime(1984, 1, 1, 0, 0), hour=5, value=638.55)]))

(elevDF

.map(lambda (date, hour, value): (date.year, date.month, date.day))

.collect())

结果是:[(1984, 1, 1), (1984, 1, 1), (1984, 1, 1), (1984, 1, 1), (1984, 1, 1)]

顺便说一下:datetime.datetime无论如何都要存储一个小时,所以单独保存它似乎是在浪费内存。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值