python字符串转integer_PySpark：将“stringinteger”列转换为IntegerTyp

weixin_39970689

于 2020-12-18 05:46:48 发布

阅读量421

点赞数

文章标签： python字符串转integer

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39970689/article/details/111456569

版权

我有一个以datetime.datetime对象为内容的列。我尝试使用pyspark.sql.Window功能，它需要一个数字类型，而不是日期时间或字符串。因此，我的计划是将datetime.datetime对象转换为UNIX时间戳：

设置：>>> import datetime; df = sqlContext.createDataFrame(

... [(datetime.datetime(2018, 1, 17, 19, 0, 15),),

... (datetime.datetime(2018, 1, 17, 19, 0, 16),)], ['dt'])

>>> df

DataFrame[dt: timestamp]

>>> df.dtypes

[('dt', 'timestamp')]

>>> df.show(5, False)

+---------------------+

|dt |

+---------------------+

|2018-01-17 19:00:15.0|

|2018-01-17 19:00:16.0|

+---------------------+

定义一个函数来访问timestamp对象的timestamp函数：

^{pr2}$

应用该功能：>>> df = df.withColumn('dt_ts', dt_to_timestamp()(func.col('dt')))

>>> df.show(5, False)

+---------------------+-------------+

|dt |dt_ts |

+---------------------+-------------+

|2018-01-17 19:00:15.0|1516237215000|

|2018-01-17 19:00:16.0|1516237216000|

+---------------------+-------------+

>>> df.dtypes

[('dt', 'timestamp'), ('dt_ts', 'string')]

我不知道为什么当内部的_dt_to_timestamp函数返回一个int时，为什么这个列默认为string，但是让我们尝试将这些“字符串整数”转换为IntegerTypes：>>> df = df.withColumn('dt_ts', func.col('dt_ts').cast(IntegerType()))

>>> df.show(5, False)

+---------------------+-----+

|dt |dt_ts|

+---------------------+-----+

|2018-01-17 19:00:15.0|null |

|2018-01-17 19:00:16.0|null |

+---------------------+-----+

>>> df.dtypes

[('dt', 'timestamp'), ('dt_ts', 'int')]

这似乎只是IntegerType胁迫的问题。对于DoubleTypes，转换是有效的，但是我更喜欢整数。。。在>>> df = df.withColumn('dt_ts', dt_to_timestamp()(func.col('dt')))

>>> df = df.withColumn('dt_ts', func.col('dt_ts').cast(DoubleType()))

>>> df.show(5, False)

+---------------------+--------------+

|dt |dt_ts |

+---------------------+--------------+

|2018-01-17 19:00:15.0|1.516237215E12|

|2018-01-17 19:00:16.0|1.516237216E12|

+---------------------+--------------+

weixin_39970689

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python字符串转integer_PySpark：将“stringinteger”列转换为IntegerTyp

我有一个以datetime.datetime对象为内容的列。我尝试使用pyspark.sql.Window功能，它需要一个数字类型，而不是日期时间或字符串。因此，我的计划是将datetime.datetime对象转换为UNIX时间戳：设置：>>> import datetime; df = sqlContext.createDataFrame(... [(datetime.dat...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。