pyspark 编写 UDF函数
pyspark udf
1、先定义一个函数,例如:
def get_time(ts):
try:
res = datetime.fromtimestamp(int(ts)).strftime('%Y-%m-%d')
return res
except:
return ''
else:
return ''
2、udf的注册,这里需要定义其返回值类型,可从pyspark.sql.types中引入,如下
from pyspark.sql.functions import udf, col
from pyspark.sql.types import StringType
time_udfs = udf(get_time, StringType())
3、udf的使用
abc.select("id", time_udfs(abc["updated"])).distinct()