模式识别与机器学习（二）：常用的概率分布（共轭分布等）

最新推荐文章于 2024-08-13 20:11:45 发布

__鸿

最新推荐文章于 2024-08-13 20:11:45 发布

阅读量2.3w

点赞数 13

分类专栏：机器学习文章标签：机器学习共轭分布高斯分布指数分布族非参数估计

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014313009/article/details/50849694

版权

本文深入探讨了机器学习中常见的概率分布，包括二值变量、多项式变量的分布，重点讲解了高斯分布及其在机器学习中的应用，同时也触及了指数分布族和非参数估计方法，为理解和使用这些分布提供了理论基础。

摘要由CSDN通过智能技术生成

第二章主要介绍几个重要的概率分布及其特性。

1. 二值变量的概率分布

假设一个二元随机变量

，用参数

表示

的概率为：

。

（1）伯努利分布（Bernoulli distribution）

概率分布函数：

期望：

方差：

log似然函数为：

其中，

表示变量x的观测值。得到

的最大似然估计值为：

（2）二项分布（Binomial distribution）

概率分布函数：

，

期望：

方差：

注：对于小的数据集，如果对二项分布采用极大似然估计，会得到过拟合（over-fitting）的估计结果。可以采用贝叶斯方法，引入共轭先验分布（conjugate prior distribution）来解决这个问题。共轭先验是指，选取一个与似然函数共轭的先验分布，使得后验分布与先验分布有同样的函数形式。其中，二项分布的共轭先验是Beta分布。

（3）Beta分布

概率分布函数：

期望：

方差：

采用贝叶斯方法，将Beta先验乘以二项分布似然函数，得到后验分布如下：

2. 多项式变量的概率分布

多项式变量可以取多种结果中的一种，而二值变量只能取两种结果中的一种。假设变量x可以取K=6种结果，若x的某一次观测值为第三种结果（

），则可以将x表示为

。另外，用参数

表示

的概率：

最低0.47元/天解锁文章

关注

13
点赞
踩
61

收藏

觉得还不错? 一键收藏
7
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 7

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。