机器学习(二)概率密度分布之非参数估计

机器学习(二)概率密度估计之非参数估计

2018/2/19
by ChenjingDing


二.非参数估计

2.1直方图估计

直方图估计概率密度函数基本思想:
将数据空间分成许多个子空间,每一个子空间大小为 ,在每一个子空间内计算样本出现的个数 n i ,样本总个数为N,则概率密度函数为:

p(x)=niN p ( x ) = n i N △ ;
平滑因子:



图4 不同平滑因子(上:平滑因子过小,估计的概率密度函数有很多毛刺,噪声; 中:平滑因子适合的时候,估计的概率密度函数; 下:平滑因子过大,估计的概率密度函数误差增大)

缺点:
当数据空间的维数为D,每一维划分的子空间个数为M,则所需子空间个数为 MD M D , 该个数呈指数级增长。有两种方法可以解决这个问题,它们都是针对每一个输入样本 xˆ x ^ ,而并非对整个训练样本事先划分好子空间。
这两种方法有相同的思路:在一个很小的区域R内,

P(x)=Rp(x)dxp(x)Vp(x)=P(x)V=KNV P ( x ) = ∫ R p ( x ) d x ≈ p ( x ) V ⇒ p ( x ) = P ( x ) V = K N V
K可以理解成V内训练样本的个数。如果固定V,则产生了核方法。如果固定K,则产生了K近邻估计的方法。

2.2核方法

引入核函数:

k(μ)0,V=k(μ)dμ=11K(xˆ)=i=1nk(xixˆ)p(x)=1N
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值