【机器学习】K均值算法（II）

最新推荐文章于 2022-04-25 17:36:11 发布

bill_live

最新推荐文章于 2022-04-25 17:36:11 发布

阅读量166

点赞数

文章标签：数据结构与算法人工智能

原文链接：http://www.cnblogs.com/KID-XiaoYuan/p/7371777.html

版权

k聚类算法中如何选择初始化聚类中心所在的位置。

在选择聚类中心时候，如果选择初始化位置不合适，可能不能得出我们想要的局部最优解。

而是会出现一下情况：

为了解决这个问题，我们通常的做法是：

我们选取K<m个聚类中心。

然后随机选择K个训练样本的实例，之后令k个聚类中心分别与k个训练实例相等。

之后我们通常需要多次运行均值算法。每一次都重新初始化，然后在比较多次运行的k均值的结果，选择代价函数较小的结果。这种方法在k较小的时候可能会有效果，但是在K数量较多的时候不会有明显改善。

如何选取聚类数量

当我们研究聚类数量与畸变函数J的关系时候，发现“肘部法则”，也就是当k的数量逐渐增加时候，存在某一点成为J函数下降过程呢中的拐点。

这个点之前，他的畸变的值迅速下降，在这个点之后，它的畸变值下变慢，那么看起来这个拐点通常会成为最合适的值。不过在实际情况中，我们会选择K值的数量取决于用聚类算法所需要解决的实际问题的目的出发。根据实际情况的需要选择K值的数量。

转载于:https://www.cnblogs.com/KID-XiaoYuan/p/7371777.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

bill_live

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

【机器学习】无监督学习算法之：K均值聚类

商务合作 | 面试培训 | 职场规划 ==>主页扫码

03-20

3845

机器学习之 K均值聚类

机器学习+周志华+9.4编程实现K均值算法

Microstrong

06-04

5738

9.4 试编程实现k均值算法，设置三组不同的k值、三组不同初始中心点，在西瓜数据集4.0上进行试验比较，并讨论什么样的初始中心有利于取得好结果。 K-means算法：初始随机的中心点不同会导致算法的迭代次数与最终结果有很大的不同。一般来说，初始的中心点越集中且越靠近边缘，则会使得迭代次数更多。初始中心点越分散，迭代次数越少，结果越好。 K=3的结果：代码可以在MATLAB中和O

参与评论您还未登录，请先登录后发表或查看评论

K均值算法实现

aoyuan4706的博客

08-23

301

运行环境：Ubuntu+Code::Blocks（G++） K-均值：在D（数据集）中随机地选择k个对象，每个对象代表一个簇的初始均值或中心。对剩下的每个对象，根据其与各个簇中心的欧式距离，将它分配到最相似的簇中。（不能保证k-均值方法收敛于全局最优解，并且它常常终止于一个局部最优解。可以不同的初始簇中心，多次运行k-均值算法。）代码为3个簇，初始的簇中心为输入的前三个点。（代码是...

K均值算法

11-30

183

为了便于可视化，样本数据为随机生成的二维样本点。 from matplotlib import pyplot as plt import numpy as np import random def kmeans(a, k): def randomChoose(a, k): # 从数组a中随机选取k个元素，返回一个list args = np.a...

机器学习《西瓜书》9.4解答——k-means算法：编程实现k均值算法，设置三组不同的k值、三组不同初始中心点，在西瓜数据集4.0上进行实验比较，并讨论什么样的初始中心有助于得到好结果。

qq_41224398的博客

12-02

9049

编程实现k均值算法，设置三组不同的k值、三组不同初始中心点，在西瓜数据集4.0上进行实验比较，并讨论什么样的初始中心有助于得到好结果。 1.运行结果：（注：图中方块标注的点为选取的初始样本点） k=2时：本次选取的2个初始向量为[[0.243, 0.267], [0.719, 0.103]] 共进行61轮共耗时0.10s k=3时：本次选取的3个初始向量为[[0.343, 0.099],...

k均值python_K均值算法-python实现

weixin_39925959的博客

12-03

329

#coding:utf-8__author__ = 'similarface''''实现K均值算法算法摘要：－－－－－－－－－－－－－－－－－－－－－－－－－－－－－输入：所有数据点A，聚类个数k输出：k个聚类的中心点随机选取k个初始的中心点repeat:计算每个点和中心点的距离，将点分配给最近的中心簇中计算Ck，更新簇的中心点until 中心点稳定－－－－－－－－－－－－－－－－－－－－－－－－...

机器学习中自适应k值的k均值算法改进.pdf

09-24

机器学习中自适应k值的k均值算法改进本文介绍了一种机器学习中自适应k值的k均值算法改进，旨在解决传统k-means算法中的两个主要缺陷：对远离群点敏感和k值难以确定的问题。该算法通过引入肘部法则的思想对数据进行...

机器学习__K均值算法.pptx

01-14

K均值算法是一种广泛应用的无监督机器学习算法，主要用于数据的聚类分析。它的目标是将数据集中的样本点分成K个不同的簇，使得每个簇内的点相互之间的相似度（通常用欧氏距离衡量）最大化，而不同簇之间的差异性最小...

k均值算法实现，约束种子k均值的python算法实现

12-05

在机器学习和数据分析领域，k均值因其简单、快速且易于理解的特点而广受欢迎。该算法的目标是将n个样本点划分到k个类别中，使得每个样本点都尽可能接近于其所在类别的中心，同时也使得类内的样本点差异最小，类间的...

机器学习算法之 K 均值聚类

最新发布

07-03

机器学习算法之 K 均值聚类本文我们来学习一下另一种经常听到的机器学习算法—— K 均值聚类。这个名字确实跟“K 近邻”有些相像，但是要明确的是，“K 近邻”中的“K”，指的是“与输入数据最接近的 K 个...

K-means算法之西瓜数据集

07-09

该数据集为西瓜数据集4.0，可做多种聚类使用，在我的博客《机器学习之K-means算法（小白入门级别）》的代码中使用。

机器学习西瓜数据集4.0

12-26

30条西瓜数据集，机器学习样例数据。

k均值聚类算法MATLAB程序及注释

07-03

文档提供了一个完整的k均值聚类算法MATLAB程序，已运行无误，且有超级详细的注释

【机器学习】K均值算法（I）

weixin_30912051的博客

08-15

310

K均值算法是一类非监督学习类，其可以通过观察样本的离散性来对样本进行分类。例如，在对如下图所示的样本中进行聚类，则执行如下步骤 1：随机选取3个点作为聚类中心。 2：簇分配：遍历所有样本然后依据每个点到最近距离进行分类。（在图中用不同颜色标出） 3：移动聚类中心到各个分类样本的平均中心。然后再次根据新的聚类中心划分分类簇，原理同步骤2，再执行步骤3 不断循环，直到聚类中心...

python 实现周志华 机器学习书中 k-means 算法

小猪观察家

05-02

6612

hello，all 上节采用python实现了决策树，本节使用python实现k-means算法，后一节将会采用map-reduce实现k-means算法算法程序如下：算法代码如下： # coding=utf-8 import pprint import uniout import math from collections import Counter imp

用python实现K均值算法

amaf44349的博客

10-27

1050

1)选取初始数据中的k个对象作为初始的中心，每个对象代表一个聚类中心： #随机生成一组整数sample import numpy as np sample=np.random.randint(1,100,[50,1]) k=3#要分成的类别数 y=np.zeros(50) #定义一个函数来存放开始的聚类中心kc def start_center(sample,k):...

数学之路(3)-模糊数学(8)

麦好的AI乐园

06-11

1628

本博客所有内容是原创，未经书面许可，严禁任何形式的转载。 http://blog.csdn.net/u010255642

《机器学习》西瓜书课后习题9.4——python实现K-means算法

NZR的blog

04-25

6122

《机器学习》西瓜书课后习题9.4——python实现K-means算法 9.4 试编程实现k均值算法，设置三组不同的k值、三组不同的初始中心点，在西瓜数据集4.0上进行实验比较，并讨论什么样的初始中心有利于取得好结果. 本文主要适用python语言编程实现了K-means算法的过程，并使用了西瓜数据集4.0作为测试数据，在初始化均值向量时使用随机选择的方法，因此相同参数的情况下代码每次运行的结果可能会有所不同。最后，为了验证聚类效果，可视化了最终的结果集，可以发现的是，随着迭代的此时的增多，聚类的效果

机器学习入门：聚类与K均值算法解析

聚类是机器学习中的一个重要概念，K均值算法是实现聚类的常用方法，它依赖于欧几里得距离计算样本间的相似性，并通过迭代寻找最优的聚类结构。正确选择K值和初始聚类中心对于获得高质量的聚类结果至关重要。