方法1:判别分析
1.1距离判别
What:以样本到总体的距离为依据的直观判别方法
How:先根据已知分类的数据,分别计算各类的重心然后计算待判样本与各类的距离,与哪一类距离最近,就判待判样本x属于哪一类。
摘自:
源程序详见 JuLiPanBie.m
1.2Bayes判别
What:根据Bayes准则进行判别的方法
How:设有两个总体,它们的先验概率分别为q1 、 q2,各总体的密度函数为f1(x) 、f2(x) ,在观测到一个样本x的情况下,可用贝叶斯公式计算它来自第k个总体的后验概率为:
一种常用判别准则是:对于待判样本x,如果在所有的P(Gk / x)中P(Gh / x)是最大的,则判定x属于第h总体。通常会以样本的频率作为各总体的先验概率。
1.3Fisher判别
What:一种先进行高维向低位投影,再根据距离判别的一种方法。
How:通过将多维数据投影至某个方向上,投影的原则是将总体与总体之间尽可能分开,然后再选择合适的判别规则,将待判的样本进行分类判别。所谓的投影实际上是利用方差分析的思想构造也一个或几个超平面,使得两组间的差别最大,每组内的差别最小。
费歇尔判别函数和判别准则
判别函数:
判别准则:
,y1 > y2,y > y0
,y1 > y2,y
,y1 y0
,y1
将两类均值及待判样本x的各项指标代入判别函数可求得三个函数值y1, y2,y,一般将y1, y2的加权平均值y0。
方法二:聚类分析
由于用matlab实现较为繁杂,故优先采用SPSS
聚类分析及SPSS实现
常用方法:系统聚类、k-means聚类、两步聚类
基本操作:打开->数据->.xls->导入->分析->分类->...聚类
分析树状图、冰柱图
树状图(谱系图):纵向观察引出来几条虚线就表示分几类
冰柱图:冰柱是自上而下垂悬的
其他聚类
+遗传算法
熟悉Matlab的GA工具箱及其函数
+模拟退火法
What:一种通用概率算法,在一定时间内寻找一个很大搜寻空间中的近似最优解。
How:模拟退火的原理也和金属退火的原理近似:我们将热力学的理论套用到统计学上,将搜寻空间内每一点想像成空气内的分子;分子的能量,就是它本身的动能;而搜寻空间内的每一点,也像空气分子一样带有“能量”,以表示该点对命题的合适程度。算法先以搜寻空间内一个任意点作起始:每一步先选择一个“邻居”,然后再计算从现有位置到达“邻居”的概率。
方法三:神经网络分类方法
主要用于图像分类。(略)