数学基础-概率论学习笔记

一 序

    本文属于极客时间,概率论学习笔记。概率论也是观察世界的一种方式。因为之前NLP训练营讲过这部分内容,所以有些可以结合那部分笔记去看。

二 基本定义:

自然界有必然现象与随机现象。

随机现象在相同的条件下,大量重复试验中呈现的规律性成为统计规律性

从事件发生频率认识概率的方法被称为‘频率学派’。再概率的定量计算上,频率学派依赖的是古典概率模型。表达式:

P(A)=\frac{k}{n}

条件概率:

条件概率是指事件A在另外一个事件B已经发生条件下的发生概率。

条件概率有很多知名的例子,比如:红球蓝球试验 ,布袋里有 2颗蓝色球和 3颗红色球。每次随机从布袋里拿一颗,记住拿完球就不放回布袋了。连续2次拿到 蓝球的概率是多少?

因为有个条件拿完球就不放回去了,第1次拿球的结果,会影响第2次拿球的概率,所以这不是独立的 ,相互影响的,就是条件概率的场景。

P(A|B)= \frac{P(AB)}{P(B)}

其中P(AB) 是联合概率,表示事件A、B共同发生的概率,当A、B两个事件满足 P(AB)= P(A)P(B)则称事件A 和事件 B 独立。

从条件概率到全概率公式

“全”字的意义在于:全部的概率 P(A) 被分解成了许多的部分概率之和。

P(A)= \sum_{i}^{N} P(A|B_i)P(B_i)

\sum _i^N B_i=1

全概率公式的实际价值在于,很多时候,我们直接去计算事件A  的概率是比较困难的,但是如果条件概率P(A|B_i)  是已知的,或者容易计算。全概率公式就成了计算概率 P(A)的好办法。

贝叶斯公式

根据前面的条件概率,可以推导:

P(AB)= P(A)P(B|A)= P(B)P(A|B)

=>P(B|A) =\frac{ P(B) P(A|B)}{P(A) }

这不仅仅是数学式子的推导,还描述了先验概率与后验概率之间的关系,

我们可以把事件A看成是结果,把事件 B_1,B_2,...,B_N看成是导致这个结果的各种可能的原因。

前面的全概率公式P(A)= \sum_{i}^{N} P(A|B_i)P(B_i)就是由各种原因推理出结果事件发生的概率,是由因到果

然而更多的场景是观察到某种现象,然后去反推造成这种现象的各种原因的概率。就是由果推因

贝叶斯公式求得的就是条件概率P(B_i|A),就是在观察到结果事件A已经发生的情况下,我们推断结果事件A是由原因 B_i造成的概率的大小.

单纯的概率 P(B_i)我们叫做先验概率,指的是在没有别的前提信息情况下的预先假设的概率值,这个值一般需要借助我们的经验估计得到。

P(B_i|A) 叫后验概率,指在获得了信息  A之后  B_i出现的概率,可以说后验概率是先验概率在获取了新信息之后的一种修正。

P(A|B) 叫似然概率,指假设成立的前提下观测到 结果的概率。

两大学派的不同:贝叶斯学派认为固定的先验概率是不存在的,参数本身也是随机数。就是说数据 的作用就是对假设做出不断的修正,是观察者对于概率大的主观认识更加接近于客观实际。

关于两派的区别,知乎上很多大佬给出了更好的解释。https://www.zhihu.com/question/20587681

概率 的估计有两种方法:最大似然估计(Maximum Likelihood Estimate)与最大后验概率估计(Maximum A Posteriori estimation)

通常的任务:就是根据已知的一堆数据样本,来推测产生该数据的模型跟参数。

最大似然估计 MLE

频率学派模型参数估计的常用方法,似然就是概率(可能性),要最大化该事件发生的可能性。

最大后验概率估计MAP

贝叶斯派模型参数估计的常用方法。最大化在给定数据样本的情况下模型参数的后验概率,随着数据量的增加,参数分布会更倾向于向数据靠拢,先验假设的影响会越来越小。

逻辑回归(LR)时,MAP(\theta )\approx MLE(\theta )+P(\theta )

贝叶斯定理与人类的认知机制更吻合,在机器学习里也应用更加广泛。

三 随机变量

这里不做严格数学意义的介绍函数定义。

根据取值空间的不同,分为离散随机变量(例如掷硬币就是一个典型的离散数据) ,与连续随机变量(比如时间)。

描述离散型数据的概率分布叫做概率质量函数(Probability mass Function),描述连续型数据叫做概率密度函数(Probability Density Function)。

概率密度函数 并非连续型随机变量的真实概率,而是不同取值和可能性之间的相对关系。

常见的离散概率分布:

二项分布 泊松分布 几何分布

连续概率分布

正态分布

每一项都可以单独写一篇,以二项分布为例:

做某件事次数是固定的,用n表示

每一次事件都有两个可能的结果(成功,或者失败)

每一次成功的概率都是相等的,成功的概率用p表示

要计算的成功x次的概率是多少

通项公式:p(x)=c_{n}^{x} p^x(1-p)^{n-x}

//todo 吧,把这些公式都整理一编。

除了上面的概率密度函数外,还有描述随机变量特征的参数是数字特征,包含:数学期望、方差、协方差。

参照之前整理的。

https://blog.csdn.net/bohu83/article/details/93422797

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值