模式识别(Pattern Recognition)学习笔记(六)——概率密度函数的非参估计

       上篇学习了PDF的参数估计方法,主要有最大似然估计和贝叶斯估计,他们主要对有确定形式的PDF进行参数估计,而在实际情况下,并不能知道PDF的确切形式,只能通过利用所有样本对整个PDF进行估计,而且这种估计只能是利用数值方法求解。通俗的说,如果参数估计是从指定的某一类函数中选择一个作为目标估计,那么非参数估计就是从所有可能的函数中找到一个合适的选择。

       非参数估计主要有三种方法:直方图法、kn近邻法、核函数法,其中核函数法又叫Parzen窗法或核密度法。

1.直方图法

       这是一种最简单也最直观的一种非参数估计方法,说起这个方法,相信很多人都在初中时都有接触过,举个简单的粒子;

       a.如果将一个班上的数学成绩x(为简单起见,这里假定样本只有一个分量)从及格60分到100分划分为4个等间隔的小窗,由于x是一维向量,则会分割得到4的1次方等于4个bin,把每个bin的体积记为V;

       b.按照统计方式,统计出落入每个bin的样本数目Ni(通常我们把它叫做频数);

       c.假设这个班上有60个学生,但这次数学考试及格的有40人,那么样本总量就为40,很明显,这时候每个bin的概率密度是一个常量,可以由以下公式计算得到:

       根据上例,我们来简单的分析下直方图的基本思想。我们的目标是求出每个样本的概率密度所服从的函数分布,即求出p(x)的估计量,同样的,不考虑类别问题,假设所有样本都是同一类的。

       step1:假设某一小区域R,则某个随机样本落入R的概率:


       step2:根据二项分布,可求出有k个这样的样本落入R的概率为:


其中,N为样本总数,k的取值等于其期望值,k=PR*N,所以可以得到PR的估计量等于:

     

        step3:当p(x)连续且R的体积V足够小时,p(x)可以认为是一个常量,因此落入R的概率近似为:


将PR的估计量代入上式可得:

               (基本公式)

是不是跟上面数学成绩粒子中的估计是一样的。

       在直方图估计中,有一个直接影响估计结果的问题,就是bin的体积V选择,不可太大,也不可太小,应该与样本总数相适应,太大会导致分辨率低,太过平均;太小的话分类太过精细,波动太大。对此,有一个官方的解释就是:随着样本数的增加,bin的体积应该尽可能小,同时又必须保证在bin内有足够多的样本,但每个bin内的样本数又必须是总样本数中的一小部分,用公式表达就是:

                  (1)

2.kn近邻法

       直方图法虽然简单,但却不能范化,比如在样本总数有限的情况,毕竟一个bin内落入多少样本不仅与bin的体积有关,还与样本的分布有关,为了得到更好的估计,我们需要根据样本分布情况及时调整bin的体积大小,而kn近邻法就是有限样本下的这样一种估计方法,可以看作是一种自适应的直方图估计法。

       基本思想:在样本x的取值范围内,把每一个取值作为一个bin的中心点,根据总样本确定kn,用来规定每个bin内落入的样本个数,这样一来,在求p(x)的估计量时,找到与当前中心点最近的kn个样本放进当前bin中,在寻找这kn个样本的过程中,bin的体积是在不断变化的,直到bin中恰好落入kn个样本时,bin的体积确定,这时估计量为:


从上面公式中不难发现,样本密度与bin体积成反比,这样在高密度的bin就会有比较好的分辨率,而低密度的bin也会保证估计的连续性。与直方图估计一样,为了达到好的估计效果,我们需要按照公式(1)的原则来选择kn的函数形式,也就是它与样本总体的关系满足一个什么样的方程,比如:


        kn近邻法与直方图法的不同之处,除了bin体积的可变外,还体现在:kn近邻没有将x的可能取值划分为若干bin,而是在x的取值范围内以每一点值作为bin的中心,当求得与当前点最接近的kn个样本时,当前bin的体积也随之被确定。kn近邻法尽管解决了有限样本下直方图估计的样本分布不均现象,但是却易陷入另一问题,就是维数灾难,即当x的维数较高时,样本数量无法达到精确。

3.Parzen窗法

       这是一种用核函数来估计当前样本x处的概率密度的方法,可以看作一种在x的取值空间内用核函数对样本进行插值的过程。

       回到(基本公式)上来,在统计落入一个bin的样本个数时,需要判断观测样本xi是否应该放进包含x样本的bin中,那么该怎么判断呢?是不是跟两个样本的距离有关呢?继续往下看。。

       在直方图中,举了个样本只有一维的例子,这里我们回到常规,假设x是一个d维的特征向量,这时候每个bin也会是多维的,确切的说就是一个超立方体,设其每一维的棱长为h,那么bin的体积就是h的d次方。为统计落入bin的样本数目,我们定义一个二值函数:

有了这个二值函数,就可以很容易的来判断了,只需要计算该二值函数在(x-xi)/h处的函数值即可,为1就放进当前bin,否则不放进,于是可以统计下落入bin的所有样本数:


将上式代入(基本公式)可得:

        (2)

上式(2)中,∑符号后的那一串式子就被叫做核函数,也称窗函数,记作:


它反映了观测样本xi对x处的概率密度估计的贡献,跟两个样本之间的距离有关,因此公式(2)的直观解释就是:对落入每一个bin的所有观测样本的距离贡献值取平均,就会得到总体样本的概率密度函数估计。

       对于核函数,需要满足麦瑟尔约束条件,即函数值非负且积分为1:


       最后,介绍几种常见的核函数:

       a.方窗


       b.高斯窗(多维)


即以观测样本xi为均值,协方差矩阵∑的正态分布,其中

       c.超球窗


其中,V是超球体的体积,p是半径。

       可以注意到,上面三种核函数中都有一个共同的h参数,它就是平滑参数,反映了一个样本对多大范围内的估计产生影响。

       概率密度函数的非参估计要求样本数量足够多,只要有足够多的样本总能够保证收敛于任何密度函数,但也因此计算量和存储量比较大;反观前面的参数估计,则更适合于小样本的情况,并且对密度函数有充分的先验知识的前提下,参数估计可能会达到更好的估计效果。总之就是,要么对先验概率和类条件概率密度有充分的先验知识,要么有足够多的样本,那么就能够进行较好的概率密度估计。







  • 5
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
Pattern recognition and machine learning是一门涉及到模式识别和机器学习的课程,通过这门课程的学习,我对模式识别和机器学习有了更深入的了解。 在模式识别方面,我学习了如何使用统计学和概率论的知识对数据进行分析,识别出数据中的规律和模式。通过学习不同的模式识别算法,我了解了如何利用机器来识别图像、音频、文本甚至是生物特征等不同类型的模式。在机器学习方面,我学习了如何利用机器学习法来训练模型,使得机器可以从数据中学习规律和模式,进而做出预测和决策。 通过学习这门课程,我对机器学习模式识别的应用有了更清晰的认识,比如在图像识别、语音识别、自然语言处理、生物特征识别等领域的应用。我也学习到了如何应用这些知识和技术来解决现实生活中的问题,比如医疗诊断、金融风控、智能驾驶等领域的应用。 另外,通过课程中的实践项目,我有机会动手实践机器学习算法的应用,从数据的处理和特征提取到模型的训练和评估,这些实践使我对课程中学到的理论知识有了更深刻的理解。 总的来说,通过学习Pattern recognition and machine learning这门课程,我不仅对机器学习模式识别的理论和技术有了更深入的了解,也掌握了一些实践应用的技能,对未来在相关领域的发展和应用有了更清晰的思路和认识。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值