决策树,随机森林,逻辑回归,他们虽然有着不同的功能,但却都属于
“
有监督学习”
的一部分,即是说,模型在训练的时候,即需要特征矩阵
X
,也需要真实标签
y
。
聚类算法又叫做
“
无监督分类
”
,其目的是将数据划分成有意义或有用的组(或簇)。这种划分可以基于我们的业务需求或建模需求来完成,也可以单纯地帮助我们探索数据的自然结构和分布。
聚类 | 分类 | |
核心 | 将数据分成多个组 探索每个组的数据是否有联系 | 从已经分组的数据中去学习 把新数据放到已经分好的组中去 |
学习类型 | 无监督,无需标签进行训练 | 有监督,需要标签进行训练 |
典型算法 | K-Means,DBSCAN,层次聚类,光谱聚类 | 决策树,贝叶斯,逻辑回归 |
算法输出 | 聚类结果时不确定的 不一定总是能够反映数据的真实分类 同样的聚类,根据不同的业务需求 可能是一个好结果,也可能是一个坏结果 | 分类结果是确定的 分类的优劣是客观的 不是根据业务或算法需求决定 |
(根据菜菜的sklearn机器学习整理)