现象:
pyspark 需要添加一列 distance(距离), distance 需要基于四列的值(原经度,原纬度,现经度,现纬度)计算得来。
def calculateS(lng1,lat1,lng2,lat2):
lng1, lat1, lng2, lat2 = map(radians, [lng1, lat1, lng2, lat2])
dlon=lng2-lng1
dlat=lat2-lat1
a=sin(dlat/2)**2 + cos(lat1) * cos(lat2) * sin(dlon/2)**2
dis=2*asin(sqrt(a))*6371*1000
return dis
df.withColumn('distance', calculateS(df['pre_lng'], df['pre_lat'], df['lng'], df['lat']))
运行后报错:
解决:
不同于 pandas 即定义即用的方式,pyspark 使用前需要调用 pyspark.sql.functions 包中的 udf 函数声明,定义函数的返回数据类型,注册自定义函数。下边两种方法都可以:
1,注册自定义函数
def calculateS(lng1,lat1,lng2,lat2):
lng1, lat1, lng2, lat2 = map(radians, [lng1, lat1, lng2, lat2])
dlon=lng2-lng1
dlat=lat2-lat1
a=sin(dlat/2)**2 + cos(lat1) * cos(lat2) * sin(dlon/2)**2
dis=2*asin(sqrt(a))*6371*1000
return dis
myudf= udf(calculateS, DoubleType())
df.withColumn('distance', myudf(df['pre_lng'], df['pre_lat'], df['lng'], df['lat']))
2,修饰自定义函数
@udf(returnType=DoubleType())
def calculateS(lng1,lat1,lng2,lat2):
lng1, lat1, lng2, lat2 = map(radians, [lng1, lat1, lng2, lat2])
dlon=lng2-lng1
dlat=lat2-lat1
a=sin(dlat/2)**2 + cos(lat1) * cos(lat2) * sin(dlon/2)**2
dis=2*asin(sqrt(a))*6371*1000
return dis
df.withColumn('distance', calculateS(df['pre_lng'], df['pre_lat'], df['lng'], df['lat']))
参考:
https://blog.csdn.net/crazybean_lwb/article/details/87006752
https://mlog.club/article/5156099