2.5 非参数化方法（PRML读书笔记）

最新推荐文章于 2024-06-27 20:39:11 发布

笑看风云之变换

最新推荐文章于 2024-06-27 20:39:11 发布

阅读量892

点赞数 3

分类专栏：机器学习 PRML读书笔记文章标签：概率密度的非参数化方法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/flyhigher1983/article/details/89280101

版权

机器学习同时被 2 个专栏收录

12 篇文章 0 订阅

订阅专栏

PRML读书笔记

12 篇文章 2 订阅

订阅专栏

前面介绍的概率分布都有具体的函数形式，并且由少量的参数控制。这些参数的值可以由数据集确定，这被称为概率密度建模的参数化⽅法。参数化⽅法的⼀个重要局限性是选择的概率密度可能对于⽣成数据来说，是⼀个很差的模型。例如，如果⽣成数据的过程是多峰的，那么这种分布不可能被⾼斯分布描述，因为它是单峰的。
⾸先考虑密度估计的直⽅图⽅法。我们集中于⼀元连续变量 $x$ 的情形，标准的直⽅图简单地把 $x$ 划分成宽度为 $\Delta_i$ 的箱⼦，然后对落在第 $i$ 个箱⼦中的 $x$ 的观测数量 $n_i$ 进⾏计数，每个箱⼦的概率记为
在这里插入图片描述
很容易看出 $\int{p(x) dx} = 1$ 。这给出了概率密度 $p (x)$ 的⼀个模型，这个概率密度在每个箱⼦的宽度内是常数，并且通常箱⼦的宽度选成相同的，即 $\Delta_i=\Delta$ 。

图2.24给出了⼀个直⽅图概率密度估计的例⼦。这⾥数据满⾜绿⾊曲线的概率分布，它由两个⾼斯分布混合⽽成。同时给出的还有三个直⽅图密度估计的例⼦，分布对应对于箱⼦宽度 $\Delta$ 的三种不同的选择。我们看到，

当 $\Delta$ ⾮常⼩的时候（最上⽅的图），最终的概率密度模型有很多尖刺，有很多结构没有出现在⽣成数据的概率分布中。
相反，如果 $\Delta$ 过⼤（最下⽅的图），那么最终的概率模型会过于平滑，结果⽆法描述绿⾊曲线的双峰性质。
当 $\Delta$ 取⼀个中等⼤⼩的值时（中间的图），可以得到最好的结果。

在实际应⽤中，直⽅图⽅法对于快速地将⼀维或者⼆维的数据可视化很有⽤，但是并不适⽤于⼤多数概率密度估计的应⽤，这是因为：

⼀个明显的问题是估计的概率密度具有不连续性，这是由于箱⼦的边缘造成的。
另⼀个主要的局限性是维数放⼤。如果是 $D$ 维空间，要把每⼀维的变量都划分到 $M$ 个箱⼦中，那么箱⼦的总数为 $M^D$ 。这种对于 $D$ 的指数放⼤是维度灾难的⼀个例⼦。在⾼维空间中，如果想对于局部概率密度进⾏有意义的估计，那么需要的数据量是不可接受的。

但是，概率密度估计的直⽅图⽅法确实告诉了我们两个重要的事情。

第⼀，为了估计在某个特定位置的概率密度，我们应该考虑位于那个点的某个邻域内的数据点。对于直⽅图，这种邻域的性质由箱⼦定义，并且有⼀个⾃然的“平滑”参数描述局部区域的空间扩展，即这⾥的箱⼦宽度。
第⼆，为了获得好的结果，平滑参数的值既不能太⼤也不能太⼩。

有了这些认识，下面的两小节讨论两个⼴泛使⽤的密度估计的⾮参数化⽅法，核估计以及近邻估计。与简单的直⽅图⽅法相⽐，这两种⽅法对于维度的放⼤有着更好的适应性。

笑看风云之变换

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。