ML21_聚类_核心知识点 机器学习

  1. 聚类思路:无监督学习 没有标签 将样本划分为多个不相交的簇

  1. 性能度量:簇内相似度高,簇间相似度低

  1. 评价指标
    1. 外部指标
      1. 含义:与参考模型对比
      2. 方法:比较任意两个样本在两个模型上的预测结果
      3. 常用指标:值越大越好
        1. JC
        2. FMI
        3. RI
    2. 内部指标:
      1. 方法:基于平均距离 最远距离 簇间最近样本 等等
      2. 常用指标
        1. DBI 小好
        2. DI 大好

  1. 距离的定义要求
    1. 非负
    2. 同一
    3. 对称
    4. 直递

  1. 有序距离:闵可夫斯基距离

  1. 非序距离: VDM
    1. 作用:比较某一个属性两个离散值之间的距离

  1. 非度量距离不满足直递性

  1. 原型聚类基本思路:先初始化–> 迭代求解
    1. K-means算法[熟悉书本]
    2. LVQ学习向量
      1. 特点
        1. 要求有标签
        2. 有学习率
      2. 输出:原型向量
    3. 高斯混合聚类
      1. 特点:概率模型,而非用原型向量
      2. 步骤
        1. E: 由参数计算后验概率
        2. M: 由后验概率更新参数

  1. 密度聚类的基本思路
    1. 聚类由样本本身的分布紧密程度缺点
    2. 密度–> 可连接性–> 扩展聚类簇

  1. 密度聚类代表 DBSCAN

  1. 聚类对比
    1. kmeans
      1. 优点
        1. 简单
        2. 复杂度低
      2. 缺点
        1. 要求指定簇数
        2. 对初值敏感
        3. 仅适合球形
        4. 对异常敏感
    2. 密度聚类
      1. 优点
        1. 任意形状
        2. 可以发现异常
        3. 不敏感
        4. 初值影响不大
        5. 一次扫描即可
      2. 缺点
        1. 不均匀间距大的样本效果差
        2. 数据规模大收敛慢
        3. 调参复杂
    3. 层次聚类
      1. 优点
        1. 数目
        2. 性质
        3. 层次结构
      2. 缺点
        1. 复杂度高
        2. 异常影响大

  1. 层次聚类思路: 树形结构 自底向上或者自顶向下

  1. 层次聚类代表算法:AGNES[熟悉书本]

  1. 高斯混合与kmeans对比
    1. 相同点
      1. 猜测参数
      2. 初值影响大
      3. 局部最优
    2. 不同点
      1. 软硬程度
      2. 维度
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值