吴恩达机器学习笔记（10.聚类）

最新推荐文章于 2024-03-13 20:57:13 发布

就是这个七昂

最新推荐文章于 2024-03-13 20:57:13 发布

阅读量399

点赞数

分类专栏： python 神经网络

本文链接：https://blog.csdn.net/qq_42633819/article/details/86250961

版权

python 同时被 2 个专栏收录

84 篇文章 5 订阅

订阅专栏

神经网络

14 篇文章 36 订阅

订阅专栏

聚类算法是一个赋监督学习方法，我们将学习无标签数据，而不是之前的标签数据。在非监督学习中，我们的数据没有附带任何标签，我们拿到的数据就是这样的：

我们有一系列点，但是没有标签，因此，我们的训练集可以写成 $x^{1},x^{2},x^{3}.......$ ,一直到 $x^{m}$ ，也就说在非监督学习中，我们要将一系列无标签的训练数据输入一个算法中，然后让这个算法找出这个数据的内在结构。图上的数据可以分为两个分开的点集，所以，能够找到圈出的这些点集的算法，就被称为聚类算法。还有其他非监督学习方法，先介绍聚类算法。2，,2，

2，K-均值算法

K-均值是最普及的聚类算法，算法接受一个未标记的数据集，然后将数据聚类成不同的组。

K-均值是一个迭代算法，假设我们想要将数据聚类成 n 个组，其方法为:

首先选择?个随机的点，称为聚类中心（cluster centroids）；对于数据集中的每一个数据，按照距离?个中心点的距离，将其与距离最近的中心点关联起来，与同一个中心点关联的所有点聚成一类。计算每一个组的平均值，将该组所关联的中心点移动到平均值的位置。重复步骤 2-4 直至中心点不再变化。

算法分为两个步骤，第一个 for 循环是赋值步骤，即：对于每一个样例?，计算其应该属于的类。第二个 for 循环是聚类中心的移动，即：对于每一个类?，重新计算该类的质心。

K-均值算法也可以很便利地用于将数据分为许多不同组，即使在没有非常明显区分的组群的情况下也可以。下图所示的数据集包含身高和体重两项特征构成的，利用 K-均值算法将数据分为三类，用于帮助确定将要生产的 T-恤衫的三种尺寸。

3，优化目标

K-均值最小化问题，是要最小化所有的数据点与其所关联的聚类中心点之间的距离之和，因此 K-均值的代价函数（又称畸变函数 Distortion function）为：

其中， $\mu _c^{i}$ 代表与 $x^{(i)}$ 最近的聚类中心点。我们的优化目标就是找出使得代价函数最小的 $c^{1},,c^{2},c^{3}........c^{m}$ 和 $\mu ^{1},\mu ^{2},\mu ^{3}.........\mu ^{k}$ ，用? 1 ,? 2 ,...,? ? 来表示聚类中心，用? (1) ,? (2) ,...,? (?)来存储与第?个实例数据最近的聚类中心的索引。

4，随机初始化

在运行K-均值算法之前，我们首先要随机初始化所有的聚类中心，下面介绍怎么做：

1，选择的聚类中心数小于样本数，K<m；

2，随机选择K个训练实例，然后令K个聚类中心分别于这K个训练实例相等；

K-均值的一个问题在于，它有可能会停留在一个局部最小值处，而这取决于初始化的情况。比如说：

为了解决这个问题，我们通常需要多次运行 K-均值算法，每一次都重新进行随机初始化，最后再比较多次运行 K-均值的结果，选择代价函数最小的结果。这种方法在?较小的时候（2--10）还是可行的，但是如果?较大，这么做也可能不会有明显地改善。

5，选择聚类数

选择聚类数的方法有一个是“肘部法则”，改变你的聚类数目，然后得出代价函数的值，然后你会得到这样一个曲线：

曲线就像你的胳膊一样，你的肘部就是选择聚类合理的数值。

相似度/距离计算方法总结：

就是这个七昂

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
吴恩达机器学习笔记（10.聚类）

聚类算法是一个赋监督学习方法，我们将学习无标签数据，而不是之前的标签数据。在非监督学习中，我们的数据没有附带任何标签，我们拿到的数据就是这样的：我们有一系列点，但是没有标签，因此，我们的训练集可以写成,一直到，也就说在非监督学习中，我们要将一系列无标签的训练数据输入一个算法中，然后让这个算法找出这个数据的内在结构。图上的数据可以分为两个分开的点集，所以，能够找到圈出的这些点集的算法，就被...
复制链接

扫一扫