无监督学习的目标:
利用无标签的数据学习数据的分部或数据与数据之间的关系被称作无监督学习。
无监督学习最常应用的场景是聚类和降维。
聚类
定义
- 聚类(clustering),就是根据数据的“相似性”将数据分为多类的过程。
- 评估两个不同样本之间的“相似性” ,通常使用的方法就是计算两个样本之间的“距离”。使用不同的方法计算样本间的距离会关系到聚类结果的好坏。
- 什么样的数据是相似的,如何定义相似性,是很多机器学习任务的基本问题。
利用无标签的数据学习数据的分部或数据与数据之间的关系被称作无监督学习。