机器学习的概率与统计知识复习总结

最新推荐文章于 2024-04-03 10:03:51 发布

VIP文章 viewcode

最新推荐文章于 2024-04-03 10:03:51 发布

阅读量1.4w

点赞数 13

分类专栏：机器学习&数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/viewcode/article/details/8819361

版权

机器学习中，很多算法的推导，需要概率和统计的很多知识。学校里学的时候，基本是囫囵吞枣，也忘得差不离了。

现在复习一下，找一些概率与统计这门课的感觉。主要理解下什么是随机变量，与概率的关系，要样本干什么，等等。

1. 什么是古典概率？

有限个可能事件，且每个事件都是等可能概率事件。这个与抽样问题，经常联系起来

2. 什么是几何分布、超几何分布？

都是离散概率分布。是抽取问题的一种。

几何分布，是描述的n重伯努利实验成功的概率。前n-1次失败，第n次成功，才叫几何分布。或者说，首次成功的实验的概率分布。

超几何分布，其实是二项分布的变体，二项分布是同一事件，重复n次的概率分布；而超几何分布，是一个事情只在每个维度上，都做一次。

3. 放回抽样与不放回抽样的概率有什么不同？

其实是相同的。为什么？

放回抽样，很好理解，每次情景相同，概率都相同。

而不放回抽样，每次抽样，都是与前些次的抽样相关的。这其实是一个排列组合问题。有的书采用对称性进行分析，每次事件相互独立，且具有对称性，其基本事件：抽样的序列，仍是排列。

从相关性上，前面的人抽中，与抽不中，对后面都有影响，但是这种影响又相互抵消。除非，前面有人知道如何抽中指定的。这个采用全概率公式，推导比较合理。

如当抽过i-1次后，仍剩下m个红球，n个白球。第i次抽取白球的概率为

n/(m+n).

则第i+1次抽取白球的概率为：全概率公式： n/(m+n) * (n-1)/(m+n-1) + m/(m+n) * n/(m+n-1) = n/(m+n) 递推下去，每次抽取的概率都是相同的。

更进一步，这个问题，可变体为：蒙提霍尔问题，出自美国的电视游戏节目Let's Make a Deal。汽车与山羊，三扇门，选中汽车的概率，在开启一扇门后，有没有变化。

若主持人不知情，则概率无变化。剩余两门：1/2,1/2，无放回抽样类似。

若主持人知情，概率就会发生变化。剩余两门：未开门的概率为2/3，1/3，非概率事件。

4. 什么是随机变量？与概率什么关系？

一个单值实值函数，是一个函数X。而每个具体的实值x，会有一个出现的概率，这个概率能用这个函数（随机变量）能体现。随机变量的概念在机器学习的贝叶斯学习中、模式识别的贝叶斯分类中，是分析的基础。

5. 离散随机变量，常见的有哪些

三种分布

利用排列组合的知识，0-1分布，二项分布/n重伯努利分布都比较好理解。

而泊松分布是一种指数分布的形式。基本上是泰勒展开式的形式。为什么会有泊松分布的形式？

它也是一个单峰值函数，n无穷大时，可以近似二项分布。因为二项分布的计算不如泊松分布方便。

以平均值，就能表征一个群体的特征的分布。n*lambda。围绕中心分布，两边衰减极快。

其主要描述一种稀有事件发生的概率。n很大，p很小。而且其期望与方差都是lambda。适合描述单位时间、空间内随机发生的事情。

最低0.47元/天解锁文章

关注

13
点赞
踩
50

收藏

觉得还不错? 一键收藏
1
评论
机器学习的概率与统计知识复习总结

机器学习中，很多算法的推导，需要概率和统计的很多知识。学校里学的时候，基本是囫囵吞枣，也忘得差不离了。现在复习一下，找一些概率与统计这门课的感觉。主要理解下什么是随机变量，与概率的关系，要样本干什么，等等。1. 什么是古典概率？有限个可能事件，且每个事件都是等可能概率事件。这个与抽样问题，经常联系起来2. 什么是几何分布、超几何分布？都是离散概率分布。是抽取问
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。