机器学习技术近来得到普遍关注,其中人们谈论最多的两类机器学习算法就是分类和聚类。简单说,分类就是向事物分配标签,聚类就是将相似的事物放在一起。不过这两个概念的含义和区别还是经常让不少人感到迷惑。
我们搞不清这两者的原因很大一部分是由于很多教程和文章对它们的解释都是一笔带过,重点讲解了一大堆公式。今天我们就借助一个传统工具——Excel表格,解释分类和聚类的含义,并对二者做个直观的比较。
分类是如何工作的
比方说你想预测哪些学生能够毕业,哪些学生可能退学。可能你想找出学生属于哪个类别,这样就可以向他们分配辅导老师,补习功课。因此你就有了两个标签:危险和低危险。要想用分类法实现这个目标,你需要已经毕业的学生的数据作为训练集。
现在我们不说算法,用下面这个Excel表:
这张表中的GPA、暂令停学、学生是否被开除等存在一些数据模式。通过观察这些模式,你心里也会发现一些数据关系,注意到一些异常情况。
所以,根据下面这些数据,你能确定哪些学生可能毕业吗?如果能,那恭喜,你现在就相当于一个分类算法!
分类举例所用数据下载地址:
整体来看,分类具有以下特征:利用分类器,即一个定义好的算法,能将信息映射为一个具体类别。
通过常见指标来评估分类分析的效果。
属于监督式学习,因为它是根据可比较的特性来分配已确定的标签。
聚类是如何工作的
现在我们看看聚类。现在下面这个数据集并没有标签,我们想让电脑能高效地找到哪些数据之间比较相似&#