记录第一遍没看懂的
记录觉得有用的
其他章节:
第一章
第三章
第五章
第六章
第七章
第八章
第九章
第十章
十一章
十二章
十三章
十四章
十五章
十六章
聚类是希望将样本划分成k个不相交的簇,且“簇内相似度”尽可能高,“簇间相似度”尽可能低。他的性能外部指标最常用的是Jaccard系数:
距离度量的基本性质:
k均值聚类算法采用的欧式距离,总体比较简单,容易实现;容但易受初始质心的影响。
学习向量量化也是试图找到一组原型向量来刻画聚类结构, 但 LVQ 假设数据样本带有类别标记,学习过程利用样本的这些监督信息来辅助聚类。其主要思想就是,同一类就减小距离,否则就增大距离。
高斯混合聚类的理解可以参考博客:【机器学习笔记】通俗易懂解释高斯混合聚类原理
密度聚类的相关概念可以通过书中图9.8很好的理解:理解了概念以后,密度聚类其实就是先找到所有核心对象,然后随机选取一个核心对象,找出由其密度可达的样本,生成聚类簇,直到所有核心对象均被访问过为止。
层次聚类就是每次合并距离最小的两个簇,然后再计算类间距离,直至合并到想要的簇数。
之前上个数据挖掘的选修课,关于聚类的的原理挺多都学过了,所以写的比较简略