由于笔者在上学的期间,时常将数学课当成能够睡觉的课,造成很多基本的数学知识印象不深或者全部忘记了,但最近又要研究算法相关的内容。「人算,终究不如天算」笔者本着不会就学的理念,还是觉得整理一份学习的数学知识出来。
注意:此处只是做知识汇总,所以很多内容将直接照抄百度/维基百科
概率论
概率论是研究随机现象数量规律的数学分支。随机现象是相对于决定性现象而言的。在一定条件下必然发生某一结果的现象称为决定性现象。例如在标准大气压下,纯水加热到100℃时水必然会沸腾等。随机现象则是指在基本条件不变的情况下,每一次试验或者观察前,不能肯定会出现哪种结果,呈现出偶然性。例如,掷一枚硬币,可能会出现正面或者反面。
定理:
定理1
互补法则,与 A 互补事件的概率始终是 1-P(A)
定理2
不可能事件的概率为零
定理3
如果A1…An事件不能同时发生(为互斥事件),而且若干事件A1,A2,…An∈S每两两之间是空集关系,那么这些所有事件集合的概率等于单个事件的概率的和。
eg: 在一次掷骰子中,得到5点或者6点的概率是: P=P(A5)+P(A6) P = P ( A 5 ) + P ( A 6 )
定理4
如果事件 A,B 是差集关系,则有 P(A−B)=P(A)−P(A⋂B) P ( A − B ) = P ( A ) − P ( A ⋂ B )
定理5
任意事件加法法则,对于事件空间 S 中的任意两个事件 A 和 B,有如下定理:概率 P(A⋃B)=P(A)+P(B)−P(A⋂B) P ( A ⋃ B ) = P ( A ) + P ( B ) − P ( A ⋂ B )
定理6
事件 A,B 同时发生的概率
P(A⋂B)=P(A)∗P(B|A)=P(B)∗P(A|B) P ( A ⋂ B ) = P ( A ) ∗ P ( B | A ) = P ( B ) ∗ P ( A | B )
定理7
两个不相关联事件 A,B 同时发生的概率是: P(A⋂B)=P(A)∗P(B) P ( A ⋂ B ) = P ( A ) ∗ P ( B )
注意: 这个定理实际上是定理 6 的特殊情况,如果事件 A、B 没有联系,则有 P(A|B)=P(A) P ( A | B ) = P ( A ) ,以及 P(B|A)=P(B) P ( B | A ) = P ( B ) 。
完全概率
完全概率适用于分析具有多层结构的随机试验情况
n 个事件 H1,H2 H 1 , H 2 … Hn H n 互相独立,共同组成整个事件空间 S,即 Hi⋂Hj=∅ H i ⋂ H j = ∅ ,而且 H1⋃H2⋃H3⋂...Hn=S H 1 ⋃ H 2 ⋃ H 3 ⋂ . . . H n = S 。这时 A 的概率可以表示为 P(A)=∑njP(A|Hj)∗P(Hj) P ( A ) = ∑ j n P ( A | H j ) ∗ P ( H j )
贝叶斯定理
按照定理6 P(A⋂B)=P(A)∗P(B|A)=P(B)∗P(A|B) P ( A ⋂ B ) = P ( A ) ∗ P ( B | A ) = P ( B ) ∗ P ( A | B ) ,可以导出贝叶斯定理 P(A|B)=P(B|A)∗P(A)P(B) P ( A | B ) = P ( B | A ) ∗ P ( A ) P ( B ) 如上公式也可以变行为 P(B|A)=P(A|B)∗P(B)P(A) P ( B | A ) = P ( A | B ) ∗ P ( B ) P ( A )
参考
数学期望
在概率论和统计学中,数学期望(或均值)是每次实验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一。它反应随机变量取平均值的大小,又称为加权平均 E(x) E ( x ) 。期望值不一定包含于变量的输出值集合里。
离散型
随机变量只取得有限个值或无穷能按一定次序一一列出,其值域为一个或若干个有限或无限区间,这样的随机变量称为离散型随机变量。
离散型随机变量 X 的取值为 X1,X2,X3,...,Xn,p(X1),p(X2),p(X3),...,p(Xn) X 1 , X 2 , X 3 , . . . , X n , p ( X 1 ) , p ( X 2 ) , p ( X 3 ) , . . . , p ( X n ) 为 X 对应取值的概率,可理解为数据 X1,X2,X3,...,Xn出现的频率f(Xi) X 1 , X 2 , X 3 , . . . , X n 出 现 的 频 率 f ( X i ) ,则:
E(x)=X1∗p(X1)+X2∗p(X2)+...+Xn∗p(Xn)=X1∗f(X1)+X2∗f(X2)+...+Xn∗f(Xn) E ( x ) = X 1 ∗ p ( X 1 ) + X 2 ∗ p ( X 2 ) + . . . + X n ∗ p ( X n ) = X 1 ∗ f ( X 1 ) + X 2 ∗ f ( X 2 ) + . . . + X n ∗ f ( X n )
E(x)=∑∞1xkPk E ( x ) = ∑ 1 ∞ x k P k
连续型
设连续性随机变量 X 的概率密度函数为 f(x) f ( x ) ,若积分绝对收敛,则积分的值 ∫∞−∞xf(x)dx ∫ − ∞ ∞ x f ( x ) d x 为随机变量的数学期望,记为 E(x) E ( x )
E(x)=∫∞−∞xf(x)dx E ( x ) = ∫ − ∞ ∞ x f ( x ) d x
若随机变量 X 的分布函数 F(x) 可表示成一个非负可积函数 f(x) 的积分,则称为 X 为连续性随机变量,f(x) 称为 X 的概率密度函数。
数学期望 E(x) E ( x ) 完全由随机变量 X 的概率分布所确定。若 X 服从某一分布,也称 E(x) E ( x ) 是这一分布的数学期望。
注 :笔者渣渣的数学水平,第一次知道数学期望还需要区分连续型的,更可怕的是这个好像还跟一个叫蒙特卡罗 的积分有关,这个公式跟机器学习的采样有关(ps 都是眼泪)
参考
积分
积分是微积分和数学分析里的一个核心概念。通常分为定积分和不定积分两种。直观地说,对于一个给定的正实值函数,在一个实数区间上的定积分可以理解为坐标平面,由曲线、直线以及轴围城的曲边梯形的面积值 。
概念
如果一个函数的积分存在,并且有限,就说这个函数是可积的。一般来说,被积函数不一定只有一个变量,积分域也可以是不同维度的空间,甚至是没有直观几何意义的抽象空间。如同上面介绍的,对于只有一个变量x的实值函数f,f在闭区间[a,b]上的积分记作
∫abf(x)dx ∫ b a f ( x ) d x
其中在黎曼积分中, d(x) d ( x ) 表示分割区间的标记。
看了上面的描述,结合知乎上有个回答会更容易理解:
提起微积分,脑子里要出现这样一幅图:
概念的话,求积分就是求上面阴影部分的面积,dx就是把定义域的x范围无限分(微分)其中的一份如x1 到x2 这一小段就是dx。同理,dy就是值域的无限分为 f(x2)−f(x1) f ( x 2 ) − f ( x 1 ) 。
dy/dx 是f(x)一个微分成dx dy围成的小三角形的tan值。称之为导数。但这只是宏观上的。如果微观的话,dy/dx与f(x)的导数并不相等。中间差一个极小的值
参考
蒙特卡罗积分
蒙特卡罗方法是一种计算方法。原理是通过大量随机样本,去了解一个系统,进而得到所要计算的值。
公式: FN=1N∑Nif(Xi)pdf(Xi) F N = 1 N ∑ i N f ( X i ) p d f ( X i )
- 上述公式没有积分符号,但被认为是理想积分的近似,所以被称为积分
- 采样样本越多,就越逼近真实的积分结果
推导过程和详细的描述看蒙特·卡罗(Monte Carlo)积分详解这个吧,笔者实在是写不下去了,markdown 写数学公式符号真的是一言难尽呀!
参考资料
未完待续,余生这么长,多得是与数学斗智斗勇的日子!!!