File “/site-packages/pyspark/python/lib/pyspark.zip/pyspark/sql/functions.py“, line 187, in sum

文章讲述了在使用pyspark进行分布式计算时,由于导入了pyspark.sql模块导致map方法报错的问题。问题在于sum函数被误解为SQL中的sum,从而在计算代价cost和更新质心过程中引发错误。作者指出了问题的原因并提供了可能的解决方案。
摘要由CSDN通过智能技术生成

在运行分布式计算本轮迭代代价cost时,使用map方法出现如上报错,代码如下

for i in range(MAX_ITER):
    # 输出结果(cluster, point, cost)
    assignment = data.map(lambda point: assign_to_cluster(point, centroids, dist_fn))

    # 计算本轮迭代代价cost
    cost = assignment.map(lambda x: x[2])\
                        .reduce(lambda x, y: x + y)
    print(f'iter {i}: cost is {cost}')
    cost_seq.append(cost)
    
    #计算新的质心
    new_centroids = assignment.map(lambda x: (x[0], (x[1], 1)))\
                                .reduceByKey(lambda x, y: (x[0] + y[0], x[1] + y[1]))\
                                .mapValues(lambda x: x[0] /x[1])\
                                .map(lambda x: x[1])\
                                .collect()

原因是我在前面导入了pyspark.sql模块,导致使用sum方法时用到sql模块中而不是正常的sum方法,出现报错

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值