概率密度估计

直方图法

设随机变量X的密度为 f ( x ) f(x) f(x),则有: P ( a < X < b ) = ∫ a b f ( u ) d u P(a<X<b)=\int_a^bf(u)du P(a<X<b)=abf(u)du。设X的随机样本为 X 1 , X 2 , . . . , X N X_1,X_2,...,X_N X1,X2,...,XN,用样本点落入区间[a,b]的个数,那么由大数定律可得,可以用: n u m ( b < X i < a ) n \frac{num(b<X_i<a)}{n} nnum(b<Xi<a)。来估计P{a<X<b}。即 n u m ( b < X i < a ) n ( b − a ) \frac{num(b<X_i<a)}{n(b-a)} n(ba)num(b<Xi<a)来估计 1 b − a ∫ b a f ( u ) d u \frac{1}{b-a}\int_b^af(u)du ba1baf(u)du的值,当b-a充分小时,可以近似代表 f ( x ) f(x) f(x)在[a,b]上的值。这样就得到了 f ( x ) f(x) f(x)的估计。令b-a=h。那么 f n ( x ) = n u m ( b < X i < a ) n h f_n(x)=\frac{num(b<X_i<a)}{nh} fn(x)=nhnum(b<Xi<a)。那么估计出来的图像就是由一个一个阶梯组成的图形。

要构造直方图,就要选择起点和带宽。起点会影响直方图的形状,带宽会影响曲线的光滑度。带宽太大,平均化作用太大,带宽太小就会受到随机性的影响。而且区间边沿部分估计比较差。

目前来讲,带宽的选取没有规则可循。

考虑固定的区间: E [ f n ( x ) ] = p i h = f ( x ) E[f_n(x)]=\frac{p_i}{h}=f(x) E[fn(x)]=hpi=f(x) V a r ( f n ( x ) ) = p i ( 1 − p i ) h 2 Var(f_n(x))=\frac{p_i(1-p_i)}{h^2} Var(fn(x))=h2pi(1pi)

Rosenblatt估计法

指定一个正数h如前,用 I x I_x Ix表示以x为中心,长为h的区间来代替直方图中的(x,x+h)。即(x-h/2,x+h/2)。就可以得到Rosenblatt估计:
f n ( x ) = 1 n h f_n(x)=\frac{1}{nh} fn(x)=nh1

核密度估计

从上文可以看到:Rosenblatt估计仍为一个阶梯函数,只是各阶梯场电影不一样,仍为非连续曲线。此外, f ( x ) f(x) f(x)受到与 x x x靠近的样本比较大。所以,Parzen提出了核估计方法。
令:
f n ( x ) = 1 n h ∑ i = 1 n W ( X i − x h n ) f_n(x)=\frac{1}{nh}\sum_{i=1}^{n}W(\frac{X_i-x}{h_n}) fn(x)=nh1i=1nW(hnXix)
其中,当 ∣ x ∣ < 0.5 |x|<0.5 x<0.5 W ( x ) W(x) W(x)为1,反之则为0。
W ( x ) W(x) W(x)为核函数, h n h_n hn为带宽。

当然 W ( x ) W(x) W(x)也可以是其他形式,但必须满足以下特性:
在这里插入图片描述
核函数的选择对概率密度估计的影响不大。
带宽 h n h_n hn f ( x ) f(x) f(x)起局部光滑的作用。给定样本后,核估计的性能好坏主要取决于带宽选择是否合适。 h n h_n hn太小导致方差变大, h n h_n hn太大,导致偏差太大。

带宽的选择取决于样本的多少。

最近邻密度估计(适用于局部概率密度估计)

X 1 , . . . , X n X_1,...,X_n X1,...,Xn是来自未知密度 f ( x ) f(x) f(x)的样本。先选定一个与 n n n有关的整数 k = k n k=k_n k=kn,满足 1 < k < n 1<k<n 1<k<n。同时对固定的 x x x,记 a n ( x ) a_n(x) an(x)为最小的正数 a a a,使得 [ x − a , x + a ] [x-a,x+a] [xa,x+a]中至少包含 X 1 , . . . , X n X_1,...,X_n X1,...,Xn中的 k k k个。则,对每一个 a > 0 a>0 a>0,可以期望 X 1 , . . . , X n X_1,...,X_n X1,...,Xn中大约有 2 a n f ( x ) 2anf(x) 2anf(x)个观测落入 [ x − a , x + a ] [x-a,x+a] [xa,x+a]中。

因而, f ( x ) = f N ( x ) f(x)=f_N(x) f(x)=fN(x)可以通过 k = 2 a n ( x ) n f N ( x ) k=2a_n(x)nf_N(x) k=2an(x)nfN(x)得到。
f N ( x ) = k 2 a n ( x ) n f_N(x)=\frac{k}{2a_n(x)n} fN(x)=2an(x)nk
f N ( x ) f_N(x) fN(x) f ( x ) f(x) f(x)的最近邻估计。

最近邻估计的区间不固定,但是个数固定,而核函数估计是个数不固定而区间固定。

最近邻估计体现了对数据局部密度光滑的思想,光滑程度由 k k k控制,一半来讲 k k k依赖于样本量 n n n因此记作 k n k_n kn

注意: f N ( x ) f_N(x) fN(x)并非概率密度函数。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值