上一篇复习了模式识别中的有监督学习部分,本文着重分析无监督学习部分。
第一部分:非线性分类器
这里主要分为四部分,列举后分别进行分析学习:
- 非线性支持向量机
- 多层神经网络
- RBF网络
模板匹配(相关法)
非线性支持向量机
广义线性判别
概念:在样本分类中,只要各类别之间没有重叠,可以通过映射变换,将样本映射为线性可分样本。 比如利用0-n阶多项式线性组合构造分类器
缺点:经过这种变换,维数大大增加,形成“维数灾难”,另一方面,由于样本数并未增加,在高维空间很稀疏,有可能造成病态矩阵。非线性支持向量机
步骤:- 通过变换投影,使其在其它空间线性可分
- 利用SVM确定最优分类面
本质:将原输入空间的特征X进行非线性变换,构成新特征空间。在利用拉格朗日约束条件转换求解决策函数(即最优超平面)。
结论:无论非线性变换形式如何,变换对支持向量机的影响是把两个样本在原特征空间的内积变成成新空间的内积。这样做的好处是不增加计算复杂度,并避免了高维空间的计算。
并且,只要知道了核函数,不需要知道具体非线性变换,利用Mercer条件可以找到常用的核函数。不同的核函数可以看做选择不同的相似度衡量。
多层神经网络
简单的神经元模型分析
引入激活函数,单层神经网络着重强调属于哪一边分类问题
简单的神经元模型是人工神经网络的基础,仅为线性分类器,不能解决XOR问题多层神经网络
梯度下降法: 以训练样本错分程度为目标函数,修改权系数(负梯度方向),直至目标函数取得最小值。
反向传播算法: 传统神经网络输出的误差只能对最后一个神经元的权系数求梯度,无法训练其他神经元的权值,因此引入反向传播算法(BP)。
结构:输入层-隐含层-输出层。具体包括层数K、每层节点数、权系数、激活函数f
分析: 通过计算梯度来考查各个参数对网络输出的影响(正向),通过梯度下降调整各个参数(反向)
具体步骤:- 权系数初始化
- 确定训练样本的输入和期望输出
- 计算x输入时的实际输出
- 从输出层反向调整权值。其中对输出层,s为当前神经系统实际输出与期望输出之差对权值的导数;对中间层,s为输出误差反向传播到该层的误差与该神经元的权值的导数。
缺点: 有可能显然局部最小点。收敛结果受初始权值影响大,受步长u的影响(通过加动量项改进)
学习方法:批量学习,在线学习
RBF网络
三要素:基函数、隐层节点数目、权系数
隐层节点数目等于样本数时为正则网络,常用的径向基函数有三种。
当上述构成的径向基函数矩阵为非奇异矩阵时,正则化网络系数存在且唯一。
第二部分:聚类
1. K均值聚类
步骤:未知类中心,采用K均值聚类法,按最小距离原则不停迭代更新类中心并分类。
缺点:K均值不能保证收敛到全局最优解。
改进:K均值只有当类内样本的分布为超球状或者接近超球状(即各维特征样本方差接近时)才有较好效果。如果样本数据分布不具有各项同性,分类前应该先对样本进行相似度衡量(即变换距离测度),然后进行K均值聚类。
2. 模糊均值聚类
分析:引入隶属度函数f(x),范围是[0,1],表示属于某一类程度的函数。模糊聚类,用哪个隶属度函数定义的聚类加权距离准则。
其中模糊C均值法要求一个样本对于各个聚类的隶属度和1.此时利用拉格朗日算子求代价函数最小值,交替迭代梯度求解得到隶属度和类中心,直至类中心稳定。
改进:由于模糊C均值引入了归一化条件(隶属度和1),在样本不理想的情况下,可能导致效果并不好。
第三部分:特征选择与处理
该部分主要包括四个小节:
- 线性变换与统计特征
- 特征选择
- 特征处理
- KL变换
具体阐述之。
线性变换与统计特征
线性变换:有线长度的离散变换,傅里叶变换,小波变换,Hough变换
统计特征:统计法,分布函数,特征函数,矩特征,累积量特征,多元变量特征特征选择
原则:选取的特征要体现差异(显著性)、特征之间相互独立(独立性)
显著性如何评判?散度,散布矩阵等
方法:最优算法(分枝定界法)、次优算法等。特征处理
目标:降低特征空间维数;去除相关性- 主分量分析PCA
原有特征按重要性从大到小排列,选取M个大特征值对应分量,去除其他分量,降低特征空间维数。
正交变换矩阵使新特征方差达到极值,方差越大,样本的特征差异越大。 - 核主成分分析KPCA
对样本进行非线性变换,通过在变换空间进行主成分分析实现原空间的非线性主成分分析。具体步骤:
- 计算核函数,计算矩阵K
- 解矩阵K的特征方程
- 计算样本在非线性主成分的投影
- 独立分量分析ICA
- 主分量分析PCA
KL变换
能够考虑不同的分类信息,实现监督分类的特征提取。