Spark-K-Means算法

最新推荐文章于 2022-06-08 19:47:51 发布

07H_JH

最新推荐文章于 2022-06-08 19:47:51 发布

阅读量2.6k

点赞数

分类专栏：大数据框架 spark/hadoop学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jianghuxiaojin/article/details/51724069

版权

大数据框架同时被 2 个专栏收录

107 篇文章 24 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

spark/hadoop学习

36 篇文章 14 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

机器学习算法大体分为三类：监督学习（supervised learning）、无监督学习（unsupervised learning）和半监督学习（semi-supervised learning）。监督学习是指我们利用带有类别属性标注的数据去训练、学习，用于预测未知数据的类别属性。例如，根据用户之前的购物行为去预测用户是否会购买某一商品。常用的算法有决策树，支持向量机SVM，朴素贝叶斯分类器，K-近邻算法KNN，线性回归和逻辑回归等.无监督学习是指在无人工干预的情况下将数据按照相似程度划分，而聚类算法就是非常典型的无监督学习方法，通常要处理的数据没有标签信息，可以通过计算数据之间的相似性来自动划分类别。

K-Means算法

算法的思想是初始随机给定K个簇中心，按照距离最近原则把待分类的样本点分到各个簇，然后按平均法重新计算各个簇的质心，从而确定新的簇心，迭代计算，直到簇心的移动距离小于某个给定的误差值。使用算法描述语言，只要四个步骤：

任意选择K个点作为初始聚类中心；
计算每个样本点到聚类中心的距离，将每个样本点划分到离该点最近的聚类中去；
计算每个聚类中所有点的坐标平均值，并将这个平均值作为新的聚类中心；
反复执行2、3，直到聚类中心的移动小于某误差值或者聚类次数达到要求为止。

这里计算距离的方法通常是计算欧几里得距离，假设中心点center是(x1, y1)，需要计算的样本点point是(x2, y2)：

另外，给出损失函数（Cost Function），每一次选取好新的中心点，我们就要计算一

了解本专栏

超级会员免费看

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
Spark-K-Means算法

机器学习算法大体分为三类：监督学习（supervised learning）、无监督学习（unsupervised learning）和半监督学习（semi-supervised learning）。监督学习是指我们利用带有类别属性标注的数据去训练、学习，用于预测未知数据的类别属性。例如，根据用户之前的购物行为去预测用户是否会购买某一商品。常用的算法有决策树，支持向量机SVM，朴素贝叶斯分类器，K-
复制链接

扫一扫

专栏目录

07H_JH CSDN认证博客专家 CSDN认证企业博客

码龄11年

234: 原创

4万+: 周排名

136万+: 总排名

89万+: 访问

: 等级

1万+: 积分

374: 粉丝

159: 获赞

102: 评论

243: 收藏

私信

关注

热门文章

分类专栏

最新评论

java-并发-ConcurrentHashMap高并发机制-jdk1.8
修小修: rehash的图解有问题，不是直接倒叙创建链表，是将hash值与原length相与，根据得到的值判断加入到哪个链表里
求高精度幂
m0_62031904: 10的2次幂显示结果为1，程序去掉了1后面的0，真实的答案应该为100。实际上题目的意思应该是去掉无效长串0，比如：2.500000000去掉一串无效0，值为2.5,。
基于超出内存可加载范围的数据集的逻辑回归分类器LR分类器
Tisfy: 总结得十分精辟，就像那：君王游乐万机轻，一曲霓裳四海兵。
java-开发各种Java示例项目
lunvey: 好文，让我明白了java,期待下次后续
一个大神的工程（复旦季同学）16bit RISC cpu
weixin_54990628: 上面那里写作用没写全。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

07H_JH 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。