pyspark编写UDF函数

最新推荐文章于 2024-02-26 09:09:23 发布

栗子呀！

最新推荐文章于 2024-02-26 09:09:23 发布

阅读量3.5k

点赞数 1

分类专栏： pyspark 文章标签： jdbc sql mysql spark hadoop

本文链接：https://blog.csdn.net/qq_43665254/article/details/112379113

版权

pyspark 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

pyspark 编写 UDF函数

pyspark udf
1、先定义一个函数，例如：

def get_time(ts):
    try:
        res = datetime.fromtimestamp(int(ts)).strftime('%Y-%m-%d')
        return res
    except:
        return ''
    else:
        return ''

2、udf的注册，这里需要定义其返回值类型，可从pyspark.sql.types中引入，如下

from pyspark.sql.functions import udf, col
from pyspark.sql.types import StringType

time_udfs = udf(get_time, StringType())

3、udf的使用

abc.select("id",  time_udfs(abc["updated"])).distinct()

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

栗子呀！

关注关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
pyspark编写UDF函数

pyspark 编写 UDF函数pyspark udf1、先定义一个函数，例如：def get_time(ts): try: res = datetime.fromtimestamp(int(ts)).strftime('%Y-%m-%d') return res except: return '' else: return ''2、udf的注册，这里需要定义其返回值类型，可从pyspark.sql.types
复制链接

扫一扫