非参数估计(持续……慎入!)

进来经常遇到非参数估计的问题——k近邻,meanshift,核密度估计等,因此,打算这两天把这个部分的理论知识系统的学习一遍,并在此做好感受。


1、引子:关于男女身高差异的问题。

这是我在某网络公司面试机器学习岗位时,面试官问我的一个问题:如何度量男女身高分布的差异性?

我当时的第一反应是均值和方差。

但是,均值和方差是在默认数据服从正态分布的情况下的统计量,那男女身高的分布都服从正态分布吗?不然!

接着,我想到了更细致一些的直方图估计,然后可以在L1范数归一化的直方图上做相似性度量。度量方法多种多样,常见的有:相关度(欧氏距离、鱼线距离)、卡方系数、相交系数、巴氏距离等,详细参考:http://blog.csdn.net/cxf7394373/article/details/6955530

直方图估计作为一种快速简单有效的非参数估计方法,可以在一定的精确度上反应数据的分布情况,但是,直方图估计的精确性取决于bin的宽度,当bin较宽时,直方图估计误差较大。

后来,我还想到了高斯混合模型建模男女身高的差异性的问题,这是在单峰的高斯模型假设的推广,作为有参的概率密度估计的推广,当然还可以使用别的模型。

         而生活中存在的大量的数据,是我们无法预知的分布,我们并不能用一个已知形式的模型来拟合它的分布,这个时候,我们就需要借助强大的非参数估计方法。上面说的直方图便是其中的一种。

下面,将以Duda的《模式分类》作为主要参考资料,介绍非参数估计技术在概率密度估计中的应用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值