概率密度估计

黑川赤音

已于 2023-06-23 21:38:00 修改

阅读量213

点赞数

文章标签：算法机器学习

于 2023-06-23 21:31:16 首次发布

本文链接：https://blog.csdn.net/misikamikirto/article/details/131353991

版权

直方图法

设随机变量X的密度为 $f (x)$ ，则有： $P(a<X<b)=\int_a^bf(u)du$ 。设X的随机样本为 $X_1,X_2,...,X_N$ ,用样本点落入区间[a,b]的个数，那么由大数定律可得，可以用： $\frac{num(b<X_i<a)}{n}$ 。来估计P{a<X<b}。即 $\frac{num(b<X_i<a)}{n(b-a)}$ 来估计 $\frac{1}{b-a}\int_b^af(u)du$ 的值，当b-a充分小时，可以近似代表 $f (x)$ 在[a,b]上的值。这样就得到了 $f (x)$ 的估计。令b-a=h。那么 $f_n(x)=\frac{num(b<X_i<a)}{nh}$ 。那么估计出来的图像就是由一个一个阶梯组成的图形。

要构造直方图，就要选择起点和带宽。起点会影响直方图的形状，带宽会影响曲线的光滑度。带宽太大，平均化作用太大，带宽太小就会受到随机性的影响。而且区间边沿部分估计比较差。

目前来讲，带宽的选取没有规则可循。

考虑固定的区间： $E[f_n(x)]=\frac{p_i}{h}=f(x)$ $Var(f_n(x))=\frac{p_i(1-p_i)}{h^2}$ 。

Rosenblatt估计法

指定一个正数h如前，用 $I_x$ 表示以x为中心，长为h的区间来代替直方图中的(x,x+h)。即(x-h/2,x+h/2)。就可以得到Rosenblatt估计:
$f_n(x)=\frac{1}{nh}$

核密度估计

从上文可以看到：Rosenblatt估计仍为一个阶梯函数，只是各阶梯场电影不一样，仍为非连续曲线。此外， $f (x)$ 受到与 $x$ 靠近的样本比较大。所以，Parzen提出了核估计方法。
令：
$f_n(x)=\frac{1}{nh}\sum_{i=1}^{n}W(\frac{X_i-x}{h_n})$
其中，当 $∣ x ∣ < 0.5$ 时 $W (x)$ 为1，反之则为0。
称 $W (x)$ 为核函数， $h_n$ 为带宽。

当然 $W (x)$ 也可以是其他形式，但必须满足以下特性：
在这里插入图片描述
核函数的选择对概率密度估计的影响不大。
带宽 $h_n$ 对 $f (x)$ 起局部光滑的作用。给定样本后，核估计的性能好坏主要取决于带宽选择是否合适。 $h_n$ 太小导致方差变大， $h_n$ 太大，导致偏差太大。

带宽的选择取决于样本的多少。

最近邻密度估计（适用于局部概率密度估计）

设 $X_1,...,X_n$ 是来自未知密度 $f (x)$ 的样本。先选定一个与 $n$ 有关的整数 $k=k_n$ ，满足 $1 < k < n$ 。同时对固定的 $x$ ，记 $a_n(x)$ 为最小的正数 $a$ ，使得 $[x - a, x + a]$ 中至少包含 $X_1,...,X_n$ 中的 $k$ 个。则，对每一个 $a > 0$ ，可以期望 $X_1,...,X_n$ 中大约有 $2 an f (x)$ 个观测落入 $[x - a, x + a]$ 中。