RDD用法与实例（十）：spark中rdd实现k-means

最新推荐文章于 2023-04-09 14:35:38 发布

水母君98

最新推荐文章于 2023-04-09 14:35:38 发布

阅读量497

点赞数

分类专栏：大数据基础文章标签： python spark 大数据机器学习

本文链接：https://blog.csdn.net/m0_37754282/article/details/108838365

版权

import numpy as np

def parseVector(line):
    return np.array([float(x) for x in line.split()])

def closestPoint(p, centers):
    bestIndex = 0
    closest = float("+inf")
    for i in range(len(centers)):
        tempDist = np.sum((p - centers[i]) ** 2)
        if tempDist < closest:
            closest = tempDist
            bestIndex = i
    return bestIndex

# The data file can be downloaded at http://www.cse.ust.hk/msbd5003/data/kmeans_data.txt
lines = sc.textFile('/Users/huangluyu/data/kmeans_data.txt', 5)  

# The data file can be downloaded at http://www.cse.ust.hk/msbd5003/data/kmeans_bigdata.txt
# lines = sc.textFile('../data/kmeans_bigdata.txt', 5)  
# lines is an RDD of strings
K = 3
convergeDist = 0.01  
# terminate algorithm when the total distance from old center to new centers is less than this value

data = lines.map(parseVector).cache() # data is an RDD of arrays

kCenters = data.t

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

水母君98

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
RDD用法与实例（十）：spark中rdd实现k-means

import numpy as npdef parseVector(line): return np.array([float(x) for x in line.split()])def closestPoint(p, centers): bestIndex = 0 closest = float("+inf") for i in range(len(centers)): tempDist = np.sum((p - centers[i]) ** 2)
复制链接

扫一扫