有学者按照机器学习发生场景的不同,将机器学习划分为三种范式,它们分别是有监督学习、无监督学习与强化学习。有监督学习指的是用来训练模型的数据是带有标签的,训练过程可简单概括为根据“数据带有的标签”与“模型产生的输出”之间的误差来调整模型的参数。无监督学习则适用于无标签的数据集,它往往通过对训练集进行记忆,尝试查找出数据中隐含的规律,比如,根据数据的相似度对它们进行划分。强化学习同样是针对无标签的数据集,但在强化我们会有一个reward函数,来判断我们的动作是否合理。本系列文章的二到七篇着重介绍了有一些有监督学习的算法,上一篇中也对强化学习进行了简单的概括,本篇文章将介绍最为常见的无监督学习算法—聚类。
目录
- 什么是聚类?
- 一些常见的聚类算法
一、什么是聚类
“聚类”一词最早应该出自《战国策》中的“方以类聚,物以群分”,这句话的意思是“同类的东西常聚在一起,志同道合的人相聚成群,反之就分开”。将这句话中所发现的规律应用到我们的机器学习中对无标签的数据进行处理,也即假设相似度高的输入数据往往属于同一类别,便是“聚类”的核心思想。
形式化地说,假定样本集包含m个无标记样本&#x