ML21_聚类_核心知识点机器学习

最新推荐文章于 2025-03-30 23:10:32 发布

Roswellii

最新推荐文章于 2025-03-30 23:10:32 发布

阅读量333

点赞数

分类专栏：机器学习文章标签：聚类机器学习算法

本文链接：https://blog.csdn.net/roswellnotfound/article/details/122194079

版权

机器学习专栏收录该内容

7 篇文章

订阅专栏

                    
                    聚类思路:无监督学习 没有标签 将样本划分为多个不相交的簇
 
性能度量:簇内相似度高,簇间相似度低
 
评价指标 
  外部指标 
    含义:与参考模型对比
方法:比较任意两个样本在两个模型上的预测结果
常用指标:值越大越好 
      JC
FMI
RI
 
内部指标: 
    方法:基于平均距离 最远距离 簇间最近样本 等等
常用指标 
      DBI 小好
DI 大好
 
距离的定义要求 
  非负
同一
对称
直递
 
有序距离:闵可夫斯基距离
 
非序距离: VDM 
  作用:比较某一个属性两个离散值之间的距离
 
非度量距离不满足直递性
 
原型聚类基本思路:先初始化–> 迭代求解 
  K-means算法[熟悉书本]
LVQ学习向量 
    特点 
      要求有标签
有学习率
 
输出:原型向量
 
高斯混合聚类 
    特点:概率模型,而非用原型向量
步骤 
      E: 由参数计算后验概率
M: 由后验概率更新参数
 
密度聚类的基本思路 
  聚类由样本本身的分布紧密程度缺点
密度–> 可连接性–> 扩展聚类簇
 
密度聚类代表 DBSCAN
 
聚类对比 
  kmeans 
    优点 
      简单
复杂度低
 
缺点 
      要求指定簇数
对初值敏感
仅适合球形
对异常敏感
 
密度聚类 
    优点 
      任意形状
可以发现异常
不敏感
初值影响不大
一次扫描即可
 
缺点 
      不均匀间距大的样本效果差
数据规模大收敛慢
调参复杂
 
层次聚类 
    优点 
      数目
性质
层次结构
 
缺点 
      复杂度高
异常影响大
 
层次聚类思路: 树形结构 自底向上或者自顶向下
 
层次聚类代表算法:AGNES[熟悉书本]
 
高斯混合与kmeans对比 
  相同点 
    猜测参数
初值影响大
局部最优
 
不同点 
    软硬程度
维度