前序文章:
机器学习笔记—模式分类(二)参数判别估计法(最大似然估计和贝叶斯参数估计)1
机器学习笔记—模式分类(三)参数判别估计法2(最大似然估计)
机器学习笔记—模式分类(四)参数判别估计法3(贝叶斯参数估计)
机器学习笔记—模式分类(五)参数判别估计法4(充分统计量、维数、特征线性组合、特征缺失)
机器学习笔记—模式分类(六)参数判别估计法5(序列判决之隐马尔可夫模型HMM)
机器学习笔记—模式分类(七)非参数技术1(序言、非参数的概率密度估计)
机器学习笔记—模式分类(八)非参数技术2(非参数的后验概率密度估计)
同类文章:
暂无
7、模糊分类—不精确知识分类器设计
有时我们对一个问题只有一些不精确的知识如某类别的鱼颜色“较浅”,如何设计分类器?
模糊分类中使用的方法是构造一个模糊类别隶属度函数,把客观度量得到的参数转化为主观的类别隶属度,然后用于分类。这里的模糊类别为category,而不是分类类别class,这里的类别category表示可能互相重叠的特征区域,如颜色这一特征分为暗、中等和亮3个类别。
有了从先验知识得到的类别隶属度函数,我们还需要一个合取规则,就能够得到分类函数,把对于多种特征度量的客观结果(对应多种类别隶属度函数)转化成关于鱼的确定类别。在极端情况下,隶属度函数称为0或1,那么合取规则就退化为确定性的逻辑推断。
假设最终分类可以用亮度-中等和形状-长方形来描述,当启发式的类别隶属度函数μ(.)把客观观测到的两种参数分别转化为两个类别隶属度μx(x)和μy(y)时,我们需要合取规则把两个隶属度进一步转化为确定的分类判别函数,常用的合取规则方法是:
μx(x)*μy(y)
分类时选择使得分类函数值最大的那个类别。
上述模糊方法类似Parzen窗方法、概率神经网络方法,事实上模糊类别隶属度和概率的异同本身存在争论。在模式识别领域实践中,设计者发现他们不必过于关心分类函数到底是代表概率、主观概率或近似概率等,而仍能很好地使用这些分类函数。对于模糊技术的讨论事实上都可以归入经典的概率的范畴,这里的概率指广义上的概率,其包含了类别隶属度。
考虑往茶里加半勺糖,一般会下结论茶水隶属于类别/category“甜”的隶属度为0.5,而不会说茶水甜的可能性/概率为50%;但这种情况可以简单的理解为某种反映甜的特征值(甜度特征值)为0.5,并且还存在一个分类函数,分类函数中存在一个参数就是这个甜度特征值。
假设在数据d情况下对于类别a,b,c的隶属度,可以计算一种有意义的置信度P(a|d)、P(b|d)和P(c|d),对于这种置信度函数应该满足Cox公理/Cox-Jaynes公理。
模糊逻辑分类方法的局限性在于:
(1)在高维/复杂/大量特征问题时,应用困难;
(2)设计者提供帮助求解问题的信息量非常少,只有隶属度函数的个数、位置和宽度等;
(3)缺乏适当的归一化方法,对于存在可变的代价矩阵情况很难处理;
(4)不使用训练样本,这是纯粹模糊技术比较严重的局限,当达不到设计要求时,通常需要利用神经网络或其他自适应方法来补偿。
模糊分类技术最大的贡献在于一定程度上指引人们如何把一种语言形式的知识转化成确定的分类函数。
8、衰减库仑势函数法/RCE网络法—可变窗
Parzen窗方法在整个特征空间中都使用同一个固定的窗。
实践中存在这种情况:在特征空间某些区域,小的窗有较好的效果;而在特征空间的另一些区域,大的窗有较好的效果。
kn近邻方法通过在不同点自适应的调整区域大小来达到效果。
衰减库仑势函数法/RCE网络法是介于Parzen窗方法和kn近邻方法之间的途径:在训练过程中,对于当前点,根据这个点到离它最近的非同一类别点的距离类调节窗的大小;这种区域调整算法可以用神经网络的结构来实现。
RCE网络包括输入层、模式层和类别层,每个模式层单元都有一个对应于d维输入特征空间中超球体半径的可调整参数;
在训练时,调节每个半径的数值,使得每个模式层单元能够包含进一个尽可能大的区域,该区域内的所有训练样本都应属于同一类别;
在分类时,一个归一化的测试样本被分类为和它所属的区域相同的类别,而任何重叠区域被认为是模糊的,对于模糊区域可以深入询问该区域中具体点的类别。
9、级数展开逼近—降低数据量存储
前述非参数方法或要求全部的训练样本都被存储起来,或要求设计者掌握关于问题本身的大量信息。通常只有大量训练样本才能保证估计的准确度,因此这些方法对存储容量要求很高,而且估计概率密度函数p(x)或者对测试样本x进行分类也可能有很高的计算复杂度。
可以通过修改Parzen窗方法来显著降低计算复杂度,其核心思想是用一个有限的级数来逼近窗函数,而这个级数对窗函数的逼近程度只要能够满足问题的需要即可。
如果找到两类多项式函数满足把窗函数对测试样本x和训练样本xi的依赖分开且满足
进一步pn(x)可表示为bj个关于x的函数求和,这样n个样本的信息能够用m个系数bj来表示,显著降低了数据量。
该公式虽然表示对核函数用一系列特征基函数进行分解,实际上我们不必要计算特征基函数,而只需要选择在所关系区域中正交的函数集,并且得到对原窗函数的最小均方误差逼近,甚至更简单的对窗函数使用泰勒级数逼近。
级数展开逼近方法的局限性:窗函数的关键特性是在原点处取得最大峰值,随离开中心的距离增加而逐渐衰减,即在x远离xi处对整个pn(x)的贡献应该非常小;然而多项式函数具有无界性,在多项式级数中可能发现在x远离xi处,窗函数取值对pn(x)的影响也非常大;因此必须保证每个窗函数的级数展开在所关心的区域中是准确的,这就需要级数的项非常多。该方法对于使用更复杂的级数展开的高维情况,如果窗口大小可以比较大的时候(项数不至于太多),还是比较吸引人的。