第32卷 第1期 2004年3月
河南师范大学学报(自然科学版)
()
.32 No.1Vol
文章编号:1000-2367(2004)01-0012-05
判别分析中的变量择优及其MATLAB实现
陈 辉1,胡 英2,王绪本2,郭 科1
(1.成都理工大学信息管理学院,四川成都610059;2.成都理工大学信息工程学院)
摘 要:介绍判别分析的基本思想,对判别分析中特征变量的择优进行了系统的论述,重点阐述逐步判别的变
量择优和基于总体可分性的变量择优.以MATLAB语言为工具,结合实例对自编逐步判别函数Wisestep与MAT2
LAB中自带的判别分析函数Classify进行了比较,从而表明了变量择优的重要性.
关键词:判别分析;逐步判别;变量择优;Classify函数
中图分类号:O212 文献标识码:A
近年来,随着定量科学的深入发展及其在自然科学、社会科学及经济管理科学中的广泛应用,统计分析的实践价值就显得尤为重要[1].作为统计分析的一种重要方法—判别分析,.我们给出判别分析的一般提法:设有k个总体G1、G23…kk个总体中的某一个,但不知X究竟来自其中的哪一个.X的某些特征指标值,去判断样品X..,要对待判样品做出正确的归类,首先要,,进而判别待判样品的归属.,变量选择是否恰当,是判别效果优劣的关键:(1)如果在某个判别问题中,将其中主要的指标忽略了,由此建立的判别函数其效果一定不好;(2)在判别分析中,不是特征变量愈多愈好.如果特征变量的个数较多,这样建立的判别函数需要大量的计算,再者,因为特征变量之间的不独立性及判别方程组的阶数太高,可能导致计算精度下降,甚至出现病态.基于此,我们给出了以下特征变量择优算法.
1 判别分析中的变量择优方法
1.1 前进法变量择优
先在p个变量中选择一个判别能力最强的变量i1,然后在剩余的p-1个变量中再选取一个变量i2,使在扣除i1提供的信息外,变量i2对k个总体的区分可以提供最大的附加信息.然后,再在剩余的p-2个变量中选一个i3,它是除i1,i2外可对k个总体区别提供最大附加信息的变量.如此下去,直至剩余的所有变量都不能再提供附加信息,则选择工作终止.1.2 后退法变量择优
该方法与前进法变量择优正好相反.首先,取p个变量均为特征变量,然后,选择一个判别效率最低的变量i1,把它剔除.接着,在剩下的p-1个变量中,再剔除一个判别效率最低的变量.如此下去,直至剩余的所有变量均能对k个总体的判别提供较强的附加信息时,筛选工作终止.1.3 逐步判别法变量择优
收稿日期:2003-10-10
基金项目:国家自然科学基金资助项目(40074036)作者简介:陈 辉(1981~),男,江苏徐州人,成都理工大学硕士研究生,研究方向:数字优化计算与统计分析.