机器学习的概率与统计知识复习总结

机器学习中,很多算法的推导,需要概率和统计的很多知识。学校里学的时候,基本是囫囵吞枣,也忘得差不离了。

现在复习一下,找一些概率与统计这门课的感觉。主要理解下什么是随机变量,与概率的关系,要样本干什么,等等。


1. 什么是古典概率?

有限个可能事件,且每个事件都是等可能概率事件。这个与抽样问题,经常联系起来


2. 什么是几何分布、超几何分布 ?

都是离散概率分布。是抽取问题的一种。

几何分布,是描述的n重伯努利实验成功的概率。前n-1次失败,第n次成功,才叫几何分布。或者说,首次成功的实验 的概率分布。


超几何分布,其实是二项分布的变体,二项分布是同一事件,重复n次的概率分布;而超几何分布,是一个事情只在每个维度上,都做一次。


3. 放回抽样与不放回抽样的概率有什么不同?

其实是相同的。为什么?

放回抽样,很好理解,每次情景相同,概率都相同。

而不放回抽样,每次抽样,都是与前些次的抽样相关的。这其实是一个排列组合问题。有的书采用对称性进行分析,每次事件相互独立,且具有对称性,其基本事件:抽样的序列,仍是排列。

从相关性上,前面的人抽中,与抽不中,对后面都有影响,但是这种影响又相互抵消。除非,前面有人知道如何抽中指定的。这个采用全概率公式,推导比较合理。

如当抽过i-1次后,仍剩下m个红球,n个白球。第i次抽取白球的概率为

n/(m+n).

则第i+1次抽取白球的概率为: 全概率公式:  n/(m+n)  *  (n-1)/(m+n-1)  +  m/(m+n) * n/(m+n-1) = n/(m+n) 递推下去,每次抽取的概率都是相同的。


更进一步,这个问题,可变体为:蒙提霍尔问题,出自美国的电视游戏节目Let's Make a Deal。汽车与山羊,三扇门,选中汽车的概率,在开启一扇门后,有没有变化。

若主持人不知情,则概率无变化。剩余两门:1/2,1/2,无放回抽样类似。

若主持人知情,概率就会发生变化。剩余两门:未开门的概率为2/3,1/3,非概率事件。


4. 什么是随机变量?与概率什么关系?

一个单值实值函数,是一个函数X。而每个具体的实值x,会有一个出现的概率,这个概率能用这个函数(随机变量)能体现。随机变量的概念在机器学习的贝叶斯学习中、模式识别的贝叶斯分类中,是分析的基础。


5. 离散随机变量,常见的有哪些

三种分布

利用排列组合的知识,0-1分布,二项分布/n重伯努利分布 都比较好理解。

而泊松分布 是一种指数分布的形式。基本上是泰勒展开式的形式。为什么会有泊松分布的形式?

它也是一个单峰值函数,n无穷大时,可以近似二项分布。 因为二项分布的计算不如泊松分布方便。

以平均值,就能表征一个群体的特征的分布。n*lambda。围绕中心分布,两边衰减极快。

其主要描述一种稀有事件发生的概率。n很大,p很小。 而且其 期望与方差 都是lambda。 适合描述 单位时间、空间内 随机发生的事情。

  • 13
    点赞
  • 50
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值