- 聚类思路:无监督学习 没有标签 将样本划分为多个不相交的簇
- 性能度量:簇内相似度高,簇间相似度低
- 评价指标
- 外部指标
- 含义:与参考模型对比
- 方法:比较任意两个样本在两个模型上的预测结果
- 常用指标:值越大越好
- JC
- FMI
- RI
- 内部指标:
- 方法:基于平均距离 最远距离 簇间最近样本 等等
- 常用指标
- DBI 小好
- DI 大好
- 外部指标
- 距离的定义要求
- 非负
- 同一
- 对称
- 直递
- 有序距离:闵可夫斯基距离
- 非序距离: VDM
- 作用:比较某一个属性两个离散值之间的距离
- 非度量距离不满足直递性
- 原型聚类基本思路:先初始化–> 迭代求解
- K-means算法[熟悉书本]
- LVQ学习向量
- 特点
- 要求有标签
- 有学习率
- 输出:原型向量
- 特点
- 高斯混合聚类
- 特点:概率模型,而非用原型向量
- 步骤
- E: 由参数计算后验概率
- M: 由后验概率更新参数
- 密度聚类的基本思路
- 聚类由样本本身的分布紧密程度缺点
- 密度–> 可连接性–> 扩展聚类簇
- 密度聚类代表 DBSCAN
- 聚类对比
- kmeans
- 优点
- 简单
- 复杂度低
- 缺点
- 要求指定簇数
- 对初值敏感
- 仅适合球形
- 对异常敏感
- 优点
- 密度聚类
- 优点
- 任意形状
- 可以发现异常
- 不敏感
- 初值影响不大
- 一次扫描即可
- 缺点
- 不均匀间距大的样本效果差
- 数据规模大收敛慢
- 调参复杂
- 优点
- 层次聚类
- 优点
- 数目
- 性质
- 层次结构
- 缺点
- 复杂度高
- 异常影响大
- 优点
- kmeans
- 层次聚类思路: 树形结构 自底向上或者自顶向下
- 层次聚类代表算法:AGNES[熟悉书本]
- 高斯混合与kmeans对比
- 相同点
- 猜测参数
- 初值影响大
- 局部最优
- 不同点
- 软硬程度
- 维度
- 相同点