【吴恩达机器学习笔记】第十三章聚类

最新推荐文章于 2024-03-06 02:25:04 发布

Jermiane

最新推荐文章于 2024-03-06 02:25:04 发布

阅读量470

点赞数

分类专栏：个人笔记文章标签：吴恩达机器学习

本文链接：https://blog.csdn.net/qq_36645271/article/details/96379836

版权

这篇博客介绍了无监督学习中的聚类算法，特别是K-means算法。K-means是一种迭代算法，通过簇分配和移动聚类中心来将数据分为多个簇。博客详细阐述了K-means的优化目标、随机初始化的重要性以及选择聚类数量的挑战。肘部法则作为选择K值的一种方法，但实际应用中需要结合业务需求来确定最佳聚类数量。

摘要由CSDN通过智能技术生成

搜索微信公众号:‘AI-ming3526’或者’计算机视觉这件小事’ 获取更多人工智能、机器学习干货

csdn：https://blog.csdn.net/qq_36645271

github：https://github.com/aimi-cn/AILearners

第十三章聚类

13.1 无监督学习简介

13.1.1 监督学习(supervised learning)

以下是一个典型的监督学习问题。我们有一个有标签的训练集，我们的目标是找到能够区分正样本和负样本的决策边界，在这里，监督学习是指我们有一系列标签，然后用假设函数去拟合它。
在这里插入图片描述

13.1.2 无监督学习(unsupervised learning)

与之相反的是，在无监督学习中，我们的数据并不带有任何标签。无监学习中要做的是我们要将这系列无标签的数据输入到算法中，然后让算法找到一些隐含在数据中的结构。
在这里插入图片描述
通过图中这些数据，我们能通过算法找到的一个结构就是这个数据集中的点可以分成两组分开的点集/簇(clusters)。这种能够找出圈出的这些簇的算法叫做聚类算法(clustering algorithm)。

13.1.3 聚类算法的应用

在这里插入图片描述

市场分割。也许你在数据库中存储了许多客户的信息，而你希望将他们分成不同的客户群，这样你可以对不同类型的客户分别销售产品或者分别提供更适合的服务。
社交网络分析。事实上有许多研究人员正在研究这样一些内容，他们关注一群人，关注社交网络，例如Facebook，Google+，或者是其他的一些信息，比如说：你经常跟哪些人联系，而这些人又经常给哪些人发邮件，由此找到关系密切的人群。
组织计算机集群。使用聚类算法来更好的组织计算机集群，或者更好的管理数据中心。
分析天文数据。研究如何利用聚类算法了解星系的形成，然后用这个知识，了解一些天文学上的细节问题。

13.2 K-means算法

13.2.1 K-means算法的直观理解

K-means算法是一个迭代算法，它会做两件事情，第一是簇分配(cluster assignment)，第二个是移动聚类中心(move centroid)。
在这里插入图片描述
现在假设我们有一个没有标签的数据集，并且我想将它分为两个簇。若我们执行K-means算法，具体操作如下：

首先随机生成两点，叫做聚类中心(cluster centroids)。随机生成两个点的原因是我们想把数据聚成两类。
然后进行簇分配。其中，我们要遍历每个样本，然后根据每一个点是与红色聚类中心更近还是与蓝色聚类中心更近来将每个数据点分配给两个聚类中心之一。
接下来来移动聚类中心。我们要做的是将两个聚类中心移动到同色的点的均值处。具体来说，要找出所有红色的点，然后计算出它们的均值，也就是所有红色点的平均位置，然后把红色的聚类中心移动到这里来，同理，蓝色也相同。
接下来我们进行迭代，继续执行簇分配和移动聚类中心的步骤，直到聚类中心不再改变。此时，我们说K均值已经聚合(converged)。

13.2.2 K-means算法的规范格式

输入：
- 参数 $K$ ，表示你想从数据中聚类出的簇的个数。
- 一系列无标签的数据集{ $x^{1},x^{2},...,x^{m}$ }。
- 我们约定 $x^{(i)}\in R^n$ （舍弃 $x_0=1$ ），所以我们的训练样本是 $n$ 维向量而不是 $n + 1$ 维。
随机初始化 $K$ 个聚类中心，我们记做 $\mu_1,\mu_2,...\mu_K\in R$ 。
K-means算法内循环：
- for $i = 1$ to $m$ ：
  - $c^{(i)}$