机器学习数学笔记|概率论基础常见概型分布期望与方差
觉得有用的话,欢迎一起讨论相互学习~
本博客为七月在线邹博老师机器学习数学课程学习笔记
为七月在线打call!!
课程传送门
概率论
- 对概率的认识,x表示一个事件,则P(x)表示事件发生的概率,其中不可能发生的事件P(x)=0,一定会发生的事件P(x)=1.
P ( x ) ∈ [ 0 , 1 ] P(x)\in{[0,1]} P(x)∈[0,1]- 但是事件出现的概率是0,并不意味着这个事件不可能发生.概率为1也并不意味着事件一定发生
- 若x为离散/连续变量,则P(x=x0)表示X0发生的概率/概率分布
- 机器学习中不刻意区别离散/连续变量
∑ F ( x ) 和 ∫ f ( x ) 意 义 完 全 相 同 \sum{F(x)}和\int{f(x)}意义完全相同 ∑F(x)和∫f(x)意义完全相同
公式可以等价看待,前者表示离散变量,后者表示连续变量
- 累计分布函数:
ϕ ( x ) = P ( x < = x 0 ) \phi{(x)}=P(x<=x_{0}) ϕ(x)=P(x<=x0)
计算的是 x < = x 0 x<=x_{0} x<=x0的概率值的和.- 因为 P ( x ) ∈ [ 0 , 1 ] P(x)\in{[0,1]} P(x)∈[0,1],是正数,所以 ϕ ( x ) \phi{(x)} ϕ(x)一定是 单增函数
- m i n ( ϕ ( x ) ) = 0 , m a x ( ϕ ( x ) ) = 1 min(\phi{(x)})=0,max(\phi{(x)})=1 min(ϕ(x))=0,max(ϕ(x))=1
- 因此可以将值域为[0,1]的单调递增函数y=f(x)看成x事件的累积概率(cumulative distribution function,CDF),若y=f(x)可导,则p(x)= f ′ ( x ) 为 概 率 密 度 函 数 ( p r o b a b i l i t y d e n s i t y f u n c t i o n , p d f ) f^{'}(x)为概率密度函数(probability density function, pdf) f′(x)为概率密度函数(probabilitydensityfunction,pdf)
古典概型
- 如果一个随机试验所包含的单位事件是有限的,且每个单位事件发生的可能性均相等,则这个随机试验叫做拉普拉斯试验,这种条件下的概率模型就叫古典概型。
- 遇到古典概型的问题,首先计算出所有可能的情况,然后计算出满足条件的情况,将两者相除后得到的即为事件的概率.
N
(
N
−
1
)
(
N
−
2
)
(
N
−
3
)
(
N
−
4
)
.
.
.
(
N
−
n
+
1
)
=
P
N
n
N(N-1)(N-2)(N-3)(N-4)...(N-n+1)=P^{n}_{N}
N(N−1)(N−2)(N−3)(N−4)...(N−n+1)=PNn
P
(
A
)
=
P
N
n
N
n
P(A)=\frac{P^n_{N}}{N^{n}}
P(A)=NnPNn
概率公式
贝叶斯概率公式
百度词条
以下内容部分或全部摘自百度词条
定义–摘自百度
-
贝叶斯的统计学中有一个基本的工具叫贝叶斯公式、也称为贝叶斯法则, 尽管它是一个数学公式,但其原理毋需数字也可明了。如果你看到一个人总是做一些好事,则那个人多半会是一个好人。这就是说,当你不能准确知悉一个事物的本质时,你可以依靠与事物特定本质相关的事件出现的多少去判断其本质属性的概率。 用数学语言表达就是:支持某项属性的事件发生得愈多,则该属性成立的可能性就愈大。
-
贝叶斯公式又被称为贝叶斯定理、贝叶斯规则是概率统计中的应用所观察到的现象对有关概率分布的主观判断(即先验概率)进行修正的标准方法。
-
所谓贝叶斯公式,是指当分析样本大到接近总体数时,样本中事件发生的概率将接近于总体中事件发生的概率。但行为经济学家发现,人们在决策过程中往往并不遵循贝叶斯规律,而是给予最近发生的事件和最新的经验以更多的权值,在决策和做出判断时过分看重近期的事件。面对复杂而笼统的问题,人们往往走捷径,依据可能性而非根据概率来决策。这种对经典模型的系统性偏离称为“偏差”。由于心理偏差的存在,投资者在决策判断时并非绝对理性,会行为偏差,进而影响资本市场上价格的变动。但长期以来,由于缺乏有力的替代工具,经济学家不得不在分析中坚持贝叶斯法则。
条 件 概 率 : P ( A ∣ B ) = P ( A B ) ( B ) 条件概率:P(A|B)=\frac{P(AB)}{(B)} 条件概率:P(A∣B)=(B)P(AB)
全 概 率 公 式 = P ( A ) = ∑ i P ( A ∣ B i ) P ( B i ) 全概率公式=P(A)=\sum_{i}P(A|B_{i})P(B_{i}) 全概率公式=P(A)=i∑P(A∣Bi)P(Bi)
贝 叶 斯 ( B a y e s ) 公 式 : P ( B i ∣ A ) = P ( B i , A ) P ( A ) = P ( A ∣ B i ) P ( B i ) ∑ j P ( A ∣ B j ) P ( B j ) 贝叶斯(Bayes)公式:P(B_{i}|A)=\frac{P(B_{i},A)}{P(A)}=\frac{P(A|B_{i})P(B_{i})}{\sum_{j}P(A|B_{j})P(B_{j})} 贝叶斯(Bayes)公式:P(Bi∣A)=P(A)P(Bi,A)=∑jP(A∣Bj)P(Bj)P(A∣Bi)P(Bi) -
P(A)是A的先验概率或边缘概率,之所以成为"先验"是因为它不考虑任何B方面的概率.
-
P(A|B)是已知B发生后A的条件概率,也由于得自于B的取值,而称为A的后验概率.
-
P(B|A)是已知A发生后B的条件概率,也由于得自于A的取值,而称为B的后验概率.
-
P(B)是B的先验概率或边缘概率,也称为"标准化常量"