1.特征选择的维数:增加维数,复杂度增加,无用的,降维处理。
降维方法:
rij是相关系数;协方差/标准差;
2.模式对象特征测量的数字化----离散化
3.相似性测度---同一类的相似性和不同类之间的差异性
欧式距离:
马氏距离:均值向量和总体协方差有关;----不常用
一般化明氏距离:略
角度相似性函数------点积
4.聚类准则----相似的分在一类
试探办法----
---------------------按照最近邻规则的试探-----很难实用
1)任取样本1作为初始值,计算样本2与1的距离
2)样本3分别与12计算距离,哪个近,归到哪类
3)比较完
-----------------------最大最小距离算法
1)任选样本1作为距离中心
2)选距离1最远的作为第二个距离中心
3)逐个计算各个样本与1和2的距离,选出其中最小距离(2个),选出最小中的较大值,最为第三个距离中心Z3;
4)再找所有点与三个距离中心的最小值(3个),选出最小中的较大值,最为第四个距离中心Z4;
5)没有的则结束;
6)分类
聚类准则函数法-----