引言
为了系统地复习机器学习相关算法及基础知识,对学过的知识进行一定的整理。
正文
事件的独立性(Independence)
定义:如果事件A和事件B满足 P ( A B ) = P ( A ) P ( B ) P(A B)=P(A) P(B) P(AB)=P(A)P(B),则称事件A和事件B独立。举个例子:如果一个人语文考试通过为事件A,数学考试通过为事件B,这两个考试一点关系都没有,互不影响,所以这个人同时通过两科考试的概率就应该等于通过语文考试的概率乘以通过数学考试的概率。
既然A、B是独立的,那么就有 P ( A ∣ B ) = P ( A ) P(A | B)=P(A) P(A∣B)=P(A)。过了数学考试,语文考试就稳了吗?不存在的,没有半毛钱关系。
期望(Expectation)
期望就是概率加权平均值,不多扯了,上公式。
离散型:
E
(
X
)
=
∑
i
x
i
p
i
E(X)=\sum_{i} x_{i} p_{i}
E(X)=∑ixipi
连续型:
E
(
X
)
=
∫
−
∞
∞
x
f
(
x
)
d
x
E(X)=\int_{-\infty}^{\infty} x f(x) d x
E(X)=∫−∞∞xf(x)dx
对于编程来说,上述两个公式并无差异,在编程时,同样需要对连续的函数离散化。
对于期望,下面两个公式无条件成立
E
(
k
X
)
=
k
E
(
X
)
E(k X)=k E(X)
E(kX)=kE(X)
E
(
X
+
Y
)
=
E
(
X
)
+
E
(
Y
)
E(X+Y)=E(X)+E(Y)
E(X+Y)=E(X)+E(Y)
如果X,Y独立的话,则有 E ( X Y ) = E ( X ) E ( Y ) E(X Y)=E(X) E(Y) E(XY)=E(X)E(Y),但是从 E ( X Y ) = E ( X ) E ( Y ) E(X Y)=E(X) E(Y) E(XY)=E(X)E(Y),无法得出A,B独立,只能得到X,Y不相关。独立和不相关的区别,下面会说到。
方差(Varience)
定义:
Var
(
X
)
=
E
{
[
X
−
E
(
X
)
]
2
}
=
E
(
X
2
)
−
E
2
(
X
)
\operatorname{Var}(X)=E\left\{[X-E(X)]^{2}\right\}=E\left(X^{2}\right)-E^{2}(X)
Var(X)=E{[X−E(X)]2}=E(X2)−E2(X),反应数据的波动情况。
由于
Var
(
X
)
≥
0
\operatorname{Var}(X) \geq 0
Var(X)≥0,可以得到
E
(
X
2
)
≥
E
2
(
X
)
E\left(X^{2}\right) \geq E^{2}(X)
E(X2)≥E2(X)。
对于方差,下述公式无条件成立:
Var
(
c
)
=
0
\operatorname{Var}(c)=0
Var(c)=0
Var
(
X
+
c
)
=
Var
(
X
)
\operatorname{Var}(X+c)=\operatorname{Var}(X)
Var(X+c)=Var(X)
Var
(
k
X
)
=
k
2
Var
(
X
)
\operatorname{Var}(k X)=k^{2} \operatorname{Var}(X)
Var(kX)=k2Var(X)
若X,Y独立,则有
Var
(
X
+
Y
)
=
Var
(
X
)
+
Var
(
Y
)
\operatorname{Var}(X+Y)=\operatorname{Var}(X)+\operatorname{Var}(Y)
Var(X+Y)=Var(X)+Var(Y)
协方差(Covarience)
定义:
Cov
(
X
,
Y
)
=
E
{
[
X
−
E
(
X
)
]
[
Y
−
E
(
Y
)
]
}
\operatorname{Cov}(X, Y)=E\{[X-E(X)][Y-E(Y)]\}
Cov(X,Y)=E{[X−E(X)][Y−E(Y)]}
性质:
Cov
(
X
,
Y
)
=
Cov
(
Y
,
X
)
\operatorname{Cov}(X, Y)=\operatorname{Cov}(Y, X)
Cov(X,Y)=Cov(Y,X)
Cov
(
a
X
+
b
,
c
Y
+
d
)
=
acCov
(
X
,
Y
)
\operatorname{Cov}(a X+b, c Y+d)=\operatorname{acCov}(X, Y)
Cov(aX+b,cY+d)=acCov(X,Y)
Cov
(
X
1
+
X
2
,
Y
)
=
Cov
(
X
1
,
Y
)
+
Cov
(
X
2
,
Y
)
\operatorname{Cov}\left(X_{1}+X_{2}, Y\right)=\operatorname{Cov}\left(X_{1}, Y\right)+\operatorname{Cov}\left(X_{2}, Y\right)
Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)
Cov
(
X
,
Y
)
=
E
(
X
Y
)
−
E
(
X
)
E
(
Y
)
\operatorname{Cov}(X, Y)=E(X Y)-E(X) E(Y)
Cov(X,Y)=E(XY)−E(X)E(Y)
特殊的, 当
Cov
(
X
,
Y
)
=
0
\operatorname{Cov}(X, Y)=0
Cov(X,Y)=0,则说明X,Y不相关(线性不相关)。
当
Cov
(
X
,
Y
)
>
0
\operatorname{Cov}(X, Y)>0
Cov(X,Y)>0,则说明X,Y趋势相同。
当
Cov
(
X
,
Y
)
<
0
\operatorname{Cov}(X, Y)<0
Cov(X,Y)<0,则说明X,Y趋势相反。
协方差的上界定理:
若
Var
(
X
)
=
σ
1
2
,
Var
(
Y
)
=
σ
2
2
\operatorname{Var}(X)=\sigma_{1}^{2} ,\operatorname{Var}(Y)=\sigma_{2}^{2}
Var(X)=σ12,Var(Y)=σ22, 则有
∣
Cov
(
X
,
Y
)
≤
σ
1
σ
2
| \operatorname{Cov}(X, Y) \leq \sigma_{1} \sigma_{2}
∣Cov(X,Y)≤σ1σ2,当且仅当X,Y有线性关系时,等号成立。
相关系数: ρ X Y = Cov ( X , Y ) Var ( X ) Var ( Y ) ≤ 1 \rho_{X Y}=\frac{\operatorname{Cov}(X, Y)}{\sqrt{\operatorname{Var}(X) \operatorname{Var}(Y)}}≤1 ρXY=Var(X)Var(Y)Cov(X,Y)≤1,等于0时,二者不相关,等于1时,二者呈线性关系。
协方差矩阵:对于n个随机向量
(
X
1
,
X
2
…
X
n
)
\left(\mathrm{X}_{1}, \mathrm{X}_{2} \ldots \mathrm{X}_{\mathrm{n}}\right)
(X1,X2…Xn),任意两个元素
X
i
,
X
j
X_{i}, X_{j}
Xi,Xj都可以得到一个协方差,形成一个
n
×
n
n × n
n×n的矩阵,称为协方差矩阵,为对称阵。每个元素可表示为:
c
i
j
=
E
{
[
X
i
−
E
(
X
i
)
]
[
X
j
−
E
(
X
j
)
]
}
=
Cov
(
X
i
,
X
j
)
c_{i j}=E\left\{\left[X_{i}-E\left(X_{i}\right)\right]\left[X_{j}-E\left(X_{j}\right)\right]\right\}=\operatorname{Cov}\left(X_{i}, X_{j}\right)
cij=E{[Xi−E(Xi)][Xj−E(Xj)]}=Cov(Xi,Xj)
协方差矩阵为:
C
=
[
c
11
c
12
⋯
c
1
n
c
21
c
22
⋯
c
2
n
⋮
⋮
⋱
⋮
c
n
1
c
n
2
⋯
c
n
n
]
C=\left[\begin{array}{cccc}{c_{11}} & {c_{12}} & {\cdots} & {c_{1 n}} \\ {c_{21}} & {c_{22}} & {\cdots} & {c_{2 n}} \\ {\vdots} & {\vdots} & {\ddots} & {\vdots} \\ {c_{n 1}} & {c_{n 2}} & {\cdots} & {c_{n n}}\end{array}\right]
C=⎣⎢⎢⎢⎡c11c21⋮cn1c12c22⋮cn2⋯⋯⋱⋯c1nc2n⋮cnn⎦⎥⎥⎥⎤
不相关和独立的关系及区别
关系:独立一定不相关,不相关不一定独立。
区别:独立指的是两个事件之间没有半毛钱关系。而不相关仅仅指的是线性不相关(高阶关系不一定),可能会在某些时刻存在着某些非线性关系或者约束关系。
矩的概念
k阶原点矩:
E
(
X
k
)
E\left(X^{k}\right)
E(Xk)
k阶中心矩:
E
{
[
X
−
E
(
X
)
]
k
}
E\left\{[X-E(X)]^{k}\right\}
E{[X−E(X)]k}
变异系数:标准差与均值的比值称为变异系数,C.V。
1阶原点矩为期望,2阶中心矩为方差。3阶矩为偏度,四阶矩为峰度。
偏度:概率密度分布的不对称性度量,三阶中心矩与二阶累积量的1.5次方的比例。
γ
1
=
E
[
(
X
−
μ
σ
)
3
]
=
E
[
(
X
−
μ
)
3
]
(
E
[
(
X
−
μ
)
2
]
)
3
/
2
=
κ
3
κ
2
3
/
2
\gamma_{1}=E\left[\left(\frac{X-\mu}{\sigma}\right)^{3}\right]=\frac{E\left[(X-\mu)^{3}\right]}{\left(E\left[(X-\mu)^{2}\right])^{3 / 2}\right.}=\frac{\kappa_{3}}{\kappa_{2}^{3 / 2}}
γ1=E[(σX−μ)3]=(E[(X−μ)2])3/2E[(X−μ)3]=κ23/2κ3(三阶中心矩与二阶累积量的1.5次方的比例)
也可以写成:
γ
1
=
E
[
(
X
−
μ
σ
)
3
]
=
E
[
X
3
]
−
3
μ
E
[
X
2
]
+
2
μ
2
σ
3
=
E
[
X
3
]
−
3
μ
σ
2
−
μ
3
σ
3
\gamma_{1}=E\left[\left(\frac{X-\mu}{\sigma}\right)^{3}\right]=\frac{E\left[X^{3}\right]-3 \mu E\left[X^{2}\right]+2 \mu^{2}}{\sigma^{3}}=\frac{E\left[X^{3}\right]-3 \mu \sigma^{2}-\mu^{3}}{\sigma^{3}}
γ1=E[(σX−μ)3]=σ3E[X3]−3μE[X2]+2μ2=σ3E[X3]−3μσ2−μ3(易于编程)
峰度:在均值处峰值高低的度量,四阶中心矩除以方差的平方。
γ
2
=
κ
4
κ
2
2
=
μ
4
σ
4
−
3
=
1
n
∑
i
=
1
n
(
x
i
−
x
ˉ
)
4
(
1
n
∑
i
=
1
n
(
x
i
−
x
ˉ
)
2
)
2
−
3
\gamma_{2}=\frac{\kappa_{4}}{\kappa_{2}^{2}}=\frac{\mu_{4}}{\sigma^{4}}-3=\frac{\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{4}}{\left(\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}\right)^{2}}-3
γ2=κ22κ4=σ4μ4−3=(n1∑i=1n(xi−xˉ)2)2n1∑i=1n(xi−xˉ)4−3
减3是为了让正态分布的峰度为0。
超值峰度: μ 4 σ 4 \frac{\mu_{4}}{\sigma^{4}} σ4μ4 大于0为尖峰态,小于0为低峰态。
大数定理(Law of Large Numbers)
定义(从期望的角度,当实验的次数足够多,其均值将无限接近于期望):设随机变量
X
1
,
X
2
…
X
n
\mathrm{X}_{1}, \mathrm{X}_{2} \ldots \mathrm{X}_{\mathrm{n}}
X1,X2…Xn相互独立,并且具有相同的期望
μ
\mu
μ和方差
σ
2
\sigma^{2}
σ2。做前n个随机变量的平均
Y
n
=
1
n
∑
i
=
1
n
X
i
Y_{n}=\frac{1}{n} \sum_{i=1}^{n} X_{i}
Yn=n1∑i=1nXi,则对于任意正数
ε
\varepsilon
ε,有:
lim
n
→
∞
P
{
∣
Y
n
−
μ
∣
<
ε
}
=
1
\lim _{n \rightarrow \infty} P\left\{\left|Y_{n}-\mu\right|<\varepsilon\right\}=1
limn→∞P{∣Yn−μ∣<ε}=1
定义(从概率的角度,当实验次数足够多时,某一事件发生的频率无限接近于概率):一次试验中事件A发生的概率为p;重复n次独立实验中,事件A发生了
n
A
\mathrm{n}_{\mathrm{A}}
nA次,对于任意正数
ε
\varepsilon
ε,则p、n、
n
A
\mathrm{n}_{\mathrm{A}}
nA的关系满足
lim
n
→
∞
P
{
∣
n
A
n
−
p
∣
<
ε
}
=
1
\lim _{n \rightarrow \infty} P\left\{\left|\frac{n_{A}}{n}-p\right|<\varepsilon\right\}=1
limn→∞P{∣∣nnA−p∣∣<ε}=1
中心极限定理(Central Limit Theorem)
定义:设随机变量
(
X
1
,
X
2
…
X
n
)
\left(\mathrm{X}_{1}, \mathrm{X}_{2} \ldots \mathrm{X}_{\mathrm{n}}\right)
(X1,X2…Xn)相互独立,服从统一分布,并且具有相同的期望
μ
\mu
μ和方差
σ
2
\sigma^{2}
σ2,则随机变量
Y
n
=
∑
i
=
1
n
X
i
−
n
μ
n
σ
Y_{n}=\frac{\sum_{i=1}^{n} X_{i}-n \mu}{\sqrt{n} \sigma}
Yn=nσ∑i=1nXi−nμ为标准正态分布。
则
∑
i
=
1
n
X
i
服
从
正
态
分
布
N
(
n
μ
,
n
σ
2
)
\sum_{i=1}^{n} X_{i}服从正态分布\mathrm{N}\left(\mathrm{n} \mu, \mathrm{n} \sigma^{2}\right)
∑i=1nXi服从正态分布N(nμ,nσ2)
样本的统计量
样本均值: X ˉ = 1 n ∑ i = 1 n X i \bar{X}=\frac{1}{n} \sum_{i=1}^{n} X_{i} Xˉ=n1∑i=1nXi
样本方差: S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) 2 S^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2} S2=n−11∑i=1n(Xi−Xˉ)2(无偏)
样本的矩
k阶样本原点矩: A k = 1 n ∑ i = 1 n X i k A_{k}=\frac{1}{n} \sum_{i=1}^{n} X_{i}^{k} Ak=n1∑i=1nXik
k阶样本中心矩: M k = 1 n ∑ i = 1 n ( X i − X ˉ ) k M_{k}=\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{k} Mk=n1∑i=1n(Xi−Xˉ)k
利用样本矩去估计总体的方差的和均值。由于是根据样本对总体的估计结果,根据记号习惯,写作:
{
μ
^
=
X
ˉ
σ
^
2
=
1
n
∑
i
=
1
n
(
X
i
−
X
ˉ
)
2
\left\{\begin{array}{l}{\hat{\mu}=\bar{X}} \\ {\hat{\sigma}^{2}=\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}}\end{array}\right.
{μ^=Xˉσ^2=n1∑i=1n(Xi−Xˉ)2
最大似然估计(Maximum Likelihood Estimation, MLE)
从贝叶斯公式开始,
P
(
A
∣
D
)
=
P
(
D
∣
A
)
P
(
A
)
P
(
D
)
P(A | D)=\frac{P(D | A) P(A)}{P(D)}
P(A∣D)=P(D)P(D∣A)P(A)
举个简单的例子,假设某一个班级男生打游戏的概率为1/2,女生打游戏的概率为2/3,男女比例为2/1,如果随机找一个打游戏的人,它是男生还是女生?
假设
w
1
w_{1}
w1为男生,
w
2
w_{2}
w2为女生,
x
x
x为打游戏,
w
1
w_{1}
w1和
w
2
w_{2}
w2独立。
p
(
w
1
)
=
2
/
3
,
p
(
w
2
)
=
1
/
3
p\left(w_{1}\right)=2 / 3, \quad p\left(w_{2}\right)=1 / 3
p(w1)=2/3,p(w2)=1/3
p
(
x
∣
w
1
)
=
1
/
2
,
p
(
x
∣
w
2
)
=
2
/
3
p\left(x | w_{1}\right)=1 / 2, \quad p\left(x | w_{2}\right)=2 / 3
p(x∣w1)=1/2,p(x∣w2)=2/3
p
(
x
)
=
p
(
x
∣
w
1
)
p
(
w
1
)
+
p
(
x
∣
m
2
)
p
(
w
2
)
=
5
/
9
p(x)=p\left(x | w_{1}\right) p\left(w_{1}\right)+p\left(x | m_{2}\right) p\left(w_{2}\right)=5 / 9
p(x)=p(x∣w1)p(w1)+p(x∣m2)p(w2)=5/9
根据贝叶斯公式,可以得到:
P
(
w
1
∣
x
)
=
p
(
x
∣
w
1
)
p
(
w
1
)
p
(
x
)
=
1
/
2
×
2
/
3
5
/
9
=
3
5
P\left(w_{1} | x\right)=\frac{p\left(x | w_{1}\right) p\left(w_{1}\right)}{p(x)}=\frac{1 / 2 \times 2 / 3}{5 / 9}=\frac{3}{5}
P(w1∣x)=p(x)p(x∣w1)p(w1)=5/91/2×2/3=53
P
(
w
2
∣
x
)
=
p
(
x
∣
w
2
)
p
(
w
2
)
p
(
x
)
=
2
/
3
×
1
/
3
5
/
9
=
2
5
P\left(w_{2} | x\right)=\frac{p\left(x | w_{2}\right) p\left(w_{2}\right)}{p(x)}=\frac{2 / 3 \times 1 / 3}{5 / 9}=\frac{2}{5}
P(w2∣x)=p(x)p(x∣w2)p(w2)=5/92/3×1/3=52
因为
P
(
w
1
∣
x
)
P\left(w_{1} | x\right)
P(w1∣x)较大,所以我们认为这个人是男生。
假设
θ
\theta
θ是固定的待估计的参数,
(
X
1
,
X
2
…
X
n
)
\left(\mathrm{X}_{1}, \mathrm{X}_{2} \ldots \mathrm{X}_{\mathrm{n}}\right)
(X1,X2…Xn)为总体采样得到的样本,独立并且同分布,他们的联合概率密度函数(似然函数)为:
L
(
x
1
,
x
2
,
⋯
,
x
n
;
θ
1
,
θ
2
,
⋯
θ
k
)
=
∏
i
=
1
n
f
(
x
i
;
θ
1
,
θ
2
,
⋯
θ
k
)
L\left(x_{1}, x_{2}, \cdots, x_{n} ; \theta_{1}, \theta_{2}, \cdots \theta_{k}\right)=\prod_{i=1}^{n} f\left(x_{i} ; \theta_{1}, \theta_{2}, \cdots \theta_{k}\right)
L(x1,x2,⋯,xn;θ1,θ2,⋯θk)=∏i=1nf(xi;θ1,θ2,⋯θk)
求参数
θ
\theta
θ,使得似然函数取得最大值。
求解步骤:
1.根据样本分布选择合适的分布模型;
2.根据分布模型写出似然函数;
3.为方便计算(求导),对似然函数取对数,对其求导数。
4.求取方程,得最优参数。
偏差
给定数据D,自变量x真实值是
y
(
x
)
y(x)
y(x),预测值为
h
θ
(
x
,
D
)
h_{\theta}(x,D)
hθ(x,D),使用平方误差作为目标函数:
E
D
[
y
(
x
)
−
h
θ
(
x
,
D
)
]
2
=
E
D
[
{
y
(
x
)
−
E
D
[
y
(
x
)
]
}
2
)
+
{
E
D
[
y
(
x
)
]
−
h
θ
(
x
,
D
)
}
2
E_{D}\left[y(x)-h_{\theta}(x, D)\right]^{2} =E_{D}\left[\left\{y(x)-E_{D}[y(x)]\right\}^{2}\right)+\left\{E_{D}[y(x)]-h_{\theta}(x, D)\right\}^{2}
ED[y(x)−hθ(x,D)]2=ED[{y(x)−ED[y(x)]}2)+{ED[y(x)]−hθ(x,D)}2
前面一项为方差,后面一项为偏差。