pyspark 报错 TypeError: must be real number, not Column

现象:

pyspark 需要添加一列 distance(距离), distance 需要基于四列的值(原经度,原纬度,现经度,现纬度)计算得来。

def calculateS(lng1,lat1,lng2,lat2):
    lng1, lat1, lng2, lat2 = map(radians, [lng1, lat1, lng2, lat2])
    dlon=lng2-lng1
    dlat=lat2-lat1
    a=sin(dlat/2)**2 + cos(lat1) * cos(lat2) * sin(dlon/2)**2 
    dis=2*asin(sqrt(a))*6371*1000
    return dis

df.withColumn('distance', calculateS(df['pre_lng'], df['pre_lat'], df['lng'], df['lat']))

运行后报错:

解决:

不同于 pandas 即定义即用的方式,pyspark 使用前需要调用 pyspark.sql.functions 包中的 udf 函数声明,定义函数的返回数据类型,注册自定义函数。下边两种方法都可以:

1,注册自定义函数

def calculateS(lng1,lat1,lng2,lat2):
    lng1, lat1, lng2, lat2 = map(radians, [lng1, lat1, lng2, lat2])
    dlon=lng2-lng1
    dlat=lat2-lat1
    a=sin(dlat/2)**2 + cos(lat1) * cos(lat2) * sin(dlon/2)**2 
    dis=2*asin(sqrt(a))*6371*1000
    return dis

myudf= udf(calculateS, DoubleType())

df.withColumn('distance', myudf(df['pre_lng'], df['pre_lat'], df['lng'], df['lat']))

2,修饰自定义函数

@udf(returnType=DoubleType())

def calculateS(lng1,lat1,lng2,lat2):
    lng1, lat1, lng2, lat2 = map(radians, [lng1, lat1, lng2, lat2])
    dlon=lng2-lng1
    dlat=lat2-lat1
    a=sin(dlat/2)**2 + cos(lat1) * cos(lat2) * sin(dlon/2)**2 
    dis=2*asin(sqrt(a))*6371*1000
    return dis

df.withColumn('distance', calculateS(df['pre_lng'], df['pre_lat'], df['lng'], df['lat']))

 

参考:

https://blog.csdn.net/crazybean_lwb/article/details/87006752
https://mlog.club/article/5156099

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值