术语
样本空间(sample space): Ω \Omega Ω,包含了所有可能出现的结果的集合。比如在掷一次骰子的样本空间可以用{1,2,3,4,5,6}表示。
事件集(event space): F F F,a collection of subsets of Ω \Omega Ω,用来表示出现的结果。事件集未必是样本空间中的单一元素,也可以是复杂元素。比如在掷一次骰子的样本空间中,可以用{1,3,5}表示结果为奇数的事件。
概率函数(probability function): P P P,该函数完成了从事件到该事件发生概率的映射。
概率法则
贝叶斯
A的先验概率(prior probability of A): P(A)
A的后验概率(posterior probability of an event A given B): P(A|B)
P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ) P(A|B) = \frac {P(B|A)P(A)} {P(B)} P(A∣B)=P(B)P(B∣A)P(A)
独立事件
事件 A 1 , A 2 , . . . , A n A_1, A_2,\ ...\ , A_n A1,A2, ... ,An相互独立,当且仅当该事件集合的所有子集满足条件 P ( A i 1 , A i 2 , . . . , A i k ) = ∏ j = 1 k P ( A i j ) P(A_{i1}, A_{i2},\ ...\ , A_{ik}) = \prod_{j=1}^k P(A_{ij}) P(Ai1,Ai2, ... ,Aik)=∏j=1kP(Aij)
最大后验概率
Maximum-a-posteriori (MAP)。
假设 x , y x,y x,y都是离散的。
y ^ = f ( x ) = a r g m a x y p ( y ∣ x ) = a r g m a x y p ( x ∣ y ) p ( y ) = a r g m a x y p ( x , y ) \hat y = f(x) = argmax_y p(y|x) \\\\ = argmax_y p(x|y)p(y) \\\\ = argmax_y p(x,y) y^=f(x)=argmaxyp(y∣x)=argmaxyp(x∣y)p(y)=argmaxyp(x,y)
假设 x x x是连续的, y y y是离散的。
y ^ = f ( x ) = a r g m a x y p ( y ∣ x ) = a r g m a x y f ( x ∣ y ) p ( y ) \hat y = f(x) = argmax_y p(y|x) \\\\ = argmax_y f(x|y)p(y) y^=f(x)=argmaxyp(y∣x)=argmaxyf(x∣y)p(y)
缺点
- 随机变量相互独立的假设通常不成立
- 训练集中未出现某个值的样本导致概率为0,可以通过smoothing解决
信息熵
对于每一个事件,我们从它的发生能够获取到的信息是 l o g ( 1 P ( A ) ) log(\frac 1 {P(A)}) log(P(A)1)。这一个公式其实是符合我们的直觉。如果一个事件不常发生,那么当它发生的时候,透露的信息应该会比常见事件透露的信息更多。
信息熵的定义如下,
H ( X ) = − ∑ i = 1 m p ( x i ) l o g 2 p ( x i ) H(X) = -\sum_{i=1}^m p(x_i) log_2 p(x_i) H(X)=−i=1∑mp(xi)log2p(xi)
随机变量
一般来说,我们使用大写字母表示随机变量本身,用对应的小写字母代表该变量的取值。
可以从CDF分辨一个随机变量是离散变量、连续变量、抑或是两者都不是。
离散变量
满足条件 P ( X ∈ X ) = 1 P(X \in \mathcal X) = 1 P(X∈X)=1 for some countable set X ⊂ R \mathcal X \sub R X⊂R。
离散变量可以被其概率质量函数充分说明。
概率质量函数
probability mass function (pmf)。定义 p ( x ) = P ( X = x ) ∀ x ∈ X p(x) = P(X=x) \ \forall \ x \in X p(x)=P(X=x) ∀ x∈X。
性质:
- p ( x ) ≥ 0 p(x) \ge 0 p(x)≥0
- ∑ x ∈ X p ( x ) = 1 \sum_{x \in X} p(x) = 1 ∑x∈Xp(x)=1
我们常用记号 X ∼ p ( x ) X \sim p(x) X∼p(x)来表示X的pmf是p(x)。
累积分布函数
cumulative density function (cdf)。定义 F ( x ) = P ( X ≤ x ) F(x) = P(X \le x) F(x)=P(X≤x)。
性质
-
F ( x ) ≥ 0 F(x) \ge 0 F(x)≥0,且单调非递减
-
l i m x − > ∞ F ( x ) = 1 lim_{x->\infty} F(x) = 1 limx−>∞F(x)=1, l i m x − > − ∞ F ( x ) = 0 lim_{x->-\infty} F(x) = 0 limx−>−∞F(x)=0
-
F ( x ) F(x) F(x) 是右连续的,即 l i m x − > a + F ( x ) = F ( a ) lim_{x->a^+} F(x) = F(a) limx−>a+F(x)=F(a)
-
P ( X = a ) = F ( a ) − l i m x − > a − F ( a ) P(X=a) = F(a) \ - \ lim_{x->a^-} F(a) P(X=a)=F(a) − limx−>a−F(a)
经典的离散变量
Bernoulli
p ( x ) = p x + ( 1 − p ) ( 1 − x ) ; x ∈ { 0 , 1 } p(x) = px + (1-p)(1-x); \ x \in \{0,1\} p(x)=px+(1−p)(1−x); x∈