继上篇博文《机器学习中的数学(上)》,下面更新概率论中的问题:
3、概率问题
这一部分,我们简要说明一些概率论的基本概念。
3.1 概率(Probability)
概率空间是一个由三个部分组成的三元组:一个样本空间,一个事件集和一个概率分布。
- 样本空间 Ω \Omega Ω:一次试验中所有基本事件或可能输出结果的集合。
- 事件集 F \mathcal F F:样本空间中的一个子集。
- 概率分布: P \mathbb P P是将所有事件 F \mathcal F F的集合映射到 [ 0 , 1 ] [0,1] [0,1],即 P [ Ω ] = 1 \mathbb P[\Omega]=1 P[Ω]=1, P [ ∅ ] = 0 \mathbb P[\emptyset]=0 P[∅]=0。对所有互斥事件 A 1 , ⋯ , A n A_1,\cdots,A_n A1,⋯,An,
P [ A 1 ∪ ⋯ ∪ A n ] = ∑ i = 1 n P [ A i ] . \mathbb P[A_1\cup\cdots\cup A_n]=\sum_{i=1}^n\mathbb P[A_i]. P[A1∪⋯∪An]=i=1∑nP[Ai].
3.2 随机事件(Random variables)
定义3.1:随机变量(Random variables) 随机变量 X X X是一个这样的函数:样本空间 Ω → R \Omega\rightarrow\mathbb R Ω→R是可测量的,也就是对任何区间 I I I,样本空间 { ω ∈ Ω : X ( ω ) ∈ I } \{\omega\in\Omega:X(\omega)\in I\} { ω∈Ω:X(ω)∈I}的子集是一个事件。
一个具体随机变量 X X X的概率密度函数 定义为 x ↦ P [ X = x ] x\mapsto\mathbb P[X=x] x↦P[X=x]。联合概率密度函数定义为两个变量 X , Y X,Y X,Y, ( x , y ) ↦ P [ X = x ∧ Y = y ] (x,y)\mapsto\mathbb P[X=x\wedge{Y}=y] (x,y)↦P[X=x∧Y=y]。
当一个概率分布允许有一个概率密度函数时,我们就说它是绝对连续的,也就是说对所有的 a , b ∈ R a,b\in{\mathbb R} a,b∈R与实值随机变量 X X X相关的函数 f f f满足
P [ a ≤ X ≤ b ] = ∫ a b f ( x ) d x . \mathbb P[a\le X\le b]=\int_{a}^{b}f(x)dx. P[a≤X≤b]=∫abf(x)dx.
定义3.2:二项分布(Binomial distribution) 如果对任意的 k ∈ { 0 , 1 , ⋯ , n } k\in\{0,1,\cdots,n\} k∈{ 0,1,⋯,n},随机变量 X X X服从 n ∈ N n\in{\mathbb N} n∈N和 p ∈ [ 0 , 1 ] p\in[0,1] p∈[0,1]的二项分布 B ( n , p ) B(n,p) B(n,p),则有
P [ X = k ] = ( n k ) p k ( 1 − p ) n − k . \mathbb P[X=k]=\dbinom{n}{k}p^k(1-p)^{n-k}. P[X=k]=(kn)pk(1−p)n−k.
定义3.3:正态分布(Normal distribution) 如果随机变量 X X X满足如下方程,则 X X X服从 σ > 0 \sigma>0 σ>0和 μ ∈ R \mu\in\mathbb R μ∈R的正态(高斯)分布 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2),
f ( x ) = 1 2 π σ 2 exp ( − ( x − μ ) 2 2 σ 2 ) . f(x)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp{\Big(-\frac{(x-\mu)^2}{2\sigma^2}\Big)}. f(x)=