机器学习-kmeans-调包和手写源代码

最新推荐文章于 2024-05-30 00:55:33 发布

一颗西柚子

最新推荐文章于 2024-05-30 00:55:33 发布

阅读量909

点赞数 2

分类专栏：机器学习算法文章标签： kmeans 聚类

本文链接：https://blog.csdn.net/guguo666/article/details/127916175

版权

Kmeans

前言
一、调包实现
二、手写代码
- 1.引入库
- 2.代码实现
总结

前言

聚类是一个将数据集中在某些方面相似的数据成员进行分类组织的过程，聚类就是一种发现这种内在结构的技术，聚类技术经常被称为无监督学习。

k均值聚类是最著名的划分聚类算法，由于简洁和效率使得他成为所有聚类算法中最广泛使用的。给定一个数据点集合和需要的聚类数目k，k由用户指定，k均值算法根据某个距离函数反复把数据分入k个聚类中。

一、调包实现

数据处理好后

from sklearn.cluster import KMeans
NumberClusters = range(2,30)
kmeans_n = [KMeans(n_clusters=i) for i in NumberClusters]
score = [kmeans_n[i].fit(scaled_data).score(scaled_data) for i in range(len(kmeans_n))]

二、手写代码

1.选择初始化的 k 个样本作为初始聚类中心；
2.针对数据集中每个样本计算它到 k 个聚类中心的距离并将其分到距离最小的聚类中心所对应的类中；
3.针对每个类别，重新计算它的聚类中心（即属于该类的所有样本的质心）；
4.重复上面 2 3 两步操作，直到达到某个中止条件（迭代次数、最小误差变化等）。

1.引入库

import numpy as np
import pandas as pd

处理好数据后

2.代码实现

最低0.47元/天解锁文章

一颗西柚子

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
机器学习-kmeans-调包和手写源代码

聚类是一个将数据集中在某些方面相似的数据成员进行分类组织的过程，聚类就是一种发现这种内在结构的技术，聚类技术经常被称为无监督学习。k均值聚类是最著名的划分聚类算法，由于简洁和效率使得他成为所有聚类算法中最广泛使用的。给定一个数据点集合和需要的聚类数目k，k由用户指定，k均值算法根据某个距离函数反复把数据分入k个聚类中。KMeans算法通过试着将样本分离到个方差相等的组中来对数据进行聚类，从而最小化目标函数（见下文）。该算法要求指定集群的数量。
复制链接

扫一扫