概率&统计的基本术语详解
本文是自然语言处理系列——概率&统计部分的第一篇文章,想要阅读本系列其他文章的,请移步:
- 自然语言处理系列:开篇
- 概率&统计
- 概率&统计的基本术语详解
- 未完待续
1. 数学期望(Expectation)
1.1 数学期望初探
数学期望是对应随机变量(random variable)的,随机变量是“其值随机会而定”的变量。我们参考陈希孺先生的《概率论与数理统计》一书,对数学期望作如下定义:
对于离散型随机变量
—————————
随机变量 X X X只取有限个可能值 a 1 , . . . , a m a_{1},...,a_{m} a1,...,am,其概率分布为 P ( X = a i ) = p i ( i = 1 , . . . , m ) P(X=a_{i})=p_{i} (i=1,...,m) P(X=ai)=pi(i=1,...,m)。则 X X X的数学期望记为:
E ( X ) = ∑ i = 1 m p i a i E(X)=\sum_{i=1}^{m}p_{i}a_{i} E(X)=i=1∑mpiai
对于离散型随机变量
—————————
随机变量 X X X的概率密度函数 f ( x ) f(x) f(x)。则 X X X的数学期望记为:
E ( X ) = ∫ 0 ∞ x f ( x ) d x E(X)=\int_{0}^{\infty}xf(x)dx E(X)=∫0∞xf(x)dx
1.2 数学期望的常用结论
利用数学期望推导公式或者解决实际问题,需要牢记以下常用结论
- 和的期望等于期望的和,即:
E ( ∑ i = 1 m X i ) = ∑ i = 1 m E ( X i ) E(\sum_{i=1}^{m}X_{i})=\sum_{i=1}^{m}E(X_{i}) E(i=1∑mXi)=i=1∑mE(Xi) - 独立随机变量积的期望等于期望的积,即:
E ( ∏ i = 1 m X i ) = ∏ i = 1 m E ( X i ) E(\prod_{i=1}^{m}X_{i})=\prod_{i=1}^{m}E(X_{i}) E(i=1∏mXi)=i=1∏mE(Xi) - 随机变量函数的期望:
若随机变量 X X X为离散型,有分布 P ( X = a i ) = p i ( i = 1 , 2 , . . . ) P(X=a_{i})=p_{i}(i=1,2,...) P(X=ai)=pi(i=1,2,...),则:
E ( g ( X ) ) = ∑ i g ( a i ) p i E(g(X))=\sum_{i}g(a_{i})p_{i} E(g(X))=i∑g(ai)pi
若随机变量 X X X为离散型,概率密度函数为 f ( x ) f(x) f(x),则:
E ( g ( X ) ) = ∫ − ∞ ∞ g ( x ) f ( x ) d x E(g(X))=\int_{-\infty}^{\infty}g(x)f(x)dx E(g(X))=∫−∞∞g(x)f(x)dx
1.3* 赌徒游戏
数学期望作为分析工具被广泛应用于赌博中,俗话说,久赌必输,这其中蕴含着很深刻的数学原理。人大附中的李永乐老师曾借助一个“赌徒游戏”向我们展现了这一点,他从赌博继而谈到股市(赌市和股市有极强的相似性,这一点也挺讽刺的),利用数学期望这个工具进行了有趣的分析,感兴趣的同学请移步:股市又暴跌!为啥散户炒股票总赔钱?李永乐老师用数学告诉你原因
2. 方差(Variance)
2.1 方差初探
方差是一种刻画随机变量在中心位置(期望)附近散布程度的数字特征。提到散布程度,大家可能首先想到的是使用
∑
i
(
X
i
−
E
(
X
)
)
\sum_{i}(X_{i}-E(X))
∑i(Xi−E(X))来表示,但是如果仅仅对差值进行累加,会有正负抵消的现象;另外一种可以选择的方法是使用
∑
i
∣
X
i
−
E
(
X
)
∣
\sum_{i}\vert X_{i}-E(X)\vert
∑i∣Xi−E(X)∣,这样的缺点是绝对值在一些情况下求导困难。因此,最好的是取平方,即:
V
a
r
(
X
)
=
1
m
∑
i
m
(
X
i
−
E
(
X
)
)
2
=
E
(
X
−
E
(
X
)
)
2
Var(X)=\frac{1}{m}\sum_{i}^m(X_{i}-E(X))^2=E(X-E(X))^2
Var(X)=m1i∑m(Xi−E(X))2=E(X−E(X))2
这也是方差名称的由来。
关于数学期望和方差,还有一个更加通用的名字叫做矩(matrix)。设
X
X
X为随机变量,
c
c
c为常数,
k
k
k为正整数,则
E
[
(
X
−
c
)
k
]
E[(X-c)^k]
E[(X−c)k]称为
X
X
X关于
c
c
c点的
k
k
k阶矩。当
c
=
0
c=0
c=0的时候,
E
(
X
k
)
E(X^k)
E(Xk)称为
X
X
X的
k
k
k阶原点矩;当
c
=
E
(
X
)
c=E(X)
c=E(X)的时候,E[(X-E(X))^k]称为
X
X
X的
k
k
k阶中心矩。
我们自然地想到,数学期望是
X
X
X的1阶原点矩;方差是
X
X
X的二阶中心矩。
2.2 方差的常用结论
关于方差也有一些常用的结论,这里列举三条最重要的:
- 方差与期望的关系可用如下公式表达:
V a r ( X ) = E ( X − E ( X ) ) 2 = E ( X 2 ) − ( E ( X ) ) 2 Var(X)=E(X-E(X))^2=E(X^2)-(E(X))^2 Var(X)=E(X−E(X))2=E(X2)−(E(X))2 - 独立随机变量之和的方差等于各标量的方差之和,即:
V a r ( ∑ i = 1 n X i ) = ∑ i = 1 n V a r ( X i ) Var(\sum_{i=1}^nX_{i})=\sum_{i=1}^{n}Var(X_{i}) Var(i=1∑nXi)=i=1∑nVar(Xi) - 随机变量运算的方差可以用下式表达:
V a r ( a X + b ) = a 2 V a r ( X ) Var(aX+b)=a^2Var(X) Var(aX+b)=a2Var(X)
也就是说随机变量乘以一个常数,方差变为这个常数的平方倍;随机变量加上一个常数(相当于数学期望加上一个常数),方差不变。
2.3* 方差、偏差、误差与噪声
前面讲过,方差表示的是随机变量围绕数学期望波动的大小;在机器学习领域,特别是预测问题上,我们在度量机器学习模型好坏的时候,经常会使用泛化误差来度量。泛化误差是指训练好的模型在新样本(测试集)上测试时的误差。下面讨论问题时使用如下标记。
f ( x ; D ) 表 示 训 练 的 模 型 在 新 样 本 x 上 的 预 测 值 f(x;D)表示训练的模型在新样本x上的预测值 f(x;D)表示训练的模型在新样本x上的预测值
f ‾ ( x ) 为 f ( x ; D ) 的 期 望 \overline{f}(x)为f(x;D)的期望 f(x)为f(x;D)的期望
y t r u e 表 示 样 本 的 真 实 值 y_{true}表示样本的真实值 ytrue表示样本的真实值
y D 表 示 样 本 的 标 签 值 y_{D}表示样本的标签值 yD表示样本的标签值
因此我们有如下定义:
使用不同的训练集(样本数相同)产生的模型方差为:
v
a
r
(
x
)
=
E
D
[
(
f
(
x
;
D
)
−
f
‾
(
x
)
)
2
]
var(x)=E_{D}[(f(x;D)-\overline{f}(x))^2]
var(x)=ED[(f(x;D)−f(x))2]
期望值与真实标记的偏差(bias)为:
b
i
a
s
2
(
x
)
=
(
f
‾
(
x
)
−
y
)
2
bias^2(x)=(\overline{f}(x)-y)^2
bias2(x)=(f(x)−y)2
数据的噪声为:
ε
2
=
E
D
[
(
y
D
−
y
)
2
]
\varepsilon^2=E_{D}[(y_{D}-y)^2]
ε2=ED[(yD−y)2]
我们可以对泛化误差进行分解:
E
(
f
;
D
)
=
E
D
[
(
f
(
x
;
D
)
−
y
D
)
2
]
=
E
D
[
(
f
(
x
;
D
)
−
f
ˉ
(
x
)
+
f
ˉ
(
x
)
−
y
D
)
2
]
=
E
D
[
(
f
(
x
;
D
)
−
f
ˉ
(
x
)
)
2
]
+
E
D
[
(
f
ˉ
(
x
)
−
y
D
)
2
]
+
E
D
[
2
(
f
(
x
;
D
)
−
f
ˉ
(
x
)
)
(
f
ˉ
(
x
)
−
y
D
)
]
=
E
D
[
(
f
(
x
;
D
)
−
f
ˉ
(
x
)
)
2
]
+
E
D
[
(
f
ˉ
(
x
)
−
y
D
)
2
]
=
E
D
[
(
f
(
x
;
D
)
−
f
ˉ
(
x
)
)
2
]
+
E
D
[
(
f
ˉ
(
x
)
−
y
+
y
−
y
D
)
2
]
=
E
D
[
(
f
(
x
;
D
)
−
f
ˉ
(
x
)
)
2
]
+
E
D
[
(
f
ˉ
(
x
)
−
y
)
2
]
+
E
D
[
(
y
−
y
D
)
2
]
+
2
E
D
[
(
f
ˉ
(
x
)
−
y
)
(
y
−
y
D
)
]
=
E
D
[
(
f
(
x
;
D
)
−
f
ˉ
(
x
)
)
2
]
+
(
f
ˉ
(
x
)
−
y
)
2
+
E
D
[
(
y
D
−
y
)
2
]
=
v
a
r
(
x
)
+
b
i
a
s
2
+
ε
2
\begin{aligned} E(f ; D)=& \mathbb{E}_{D}\left[\left(f(\boldsymbol{x} ; D)-y_{D}\right)^{2}\right] \\=& \mathbb{E}_{D}\left[\left(f(\boldsymbol{x} ; D)-\bar{f}(\boldsymbol{x})+\bar{f}(\boldsymbol{x})-y_{D}\right)^{2}\right] \\=& \mathbb{E}_{D}\left[(f(\boldsymbol{x} ; D)-\bar{f}(\boldsymbol{x}))^{2}\right]+\mathbb{E}_{D}\left[\left(\bar{f}(\boldsymbol{x})-y_{D}\right)^{2}\right] \\ &+\mathbb{E}_{D}\left[2(f(\boldsymbol{x} ; D)-\bar{f}(\boldsymbol{x}))\left(\bar{f}(\boldsymbol{x})-y_{D}\right)\right] \\=& \mathbb{E}_{D}\left[(f(\boldsymbol{x} ; D)-\bar{f}(\boldsymbol{x}))^{2}\right]+\mathbb{E}_{D}\left[\left(\bar{f}(\boldsymbol{x})-y_{D}\right)^{2}\right] \\=& \mathbb{E}_{D}\left[(f(\boldsymbol{x} ; D)-\bar{f}(\boldsymbol{x}))^{2}\right]+\mathbb{E}_{D}\left[\left(\bar{f}(\boldsymbol{x})-y+y-y_{D}\right)^{2}\right]\\ =& \mathbb{E}_{D}\left[(f(\boldsymbol{x} ; D)-\bar{f}(\boldsymbol{x}))^{2}\right]+\mathbb{E}_{D}\left[(\bar{f}(\boldsymbol{x})-y)^{2}\right]+\mathbb{E}_{D}\left[\left(y-y_{D}\right)^{2}\right] +2 \mathbb{E}_{D}\left[(\bar{f}(\boldsymbol{x})-y)\left(y-y_{D}\right)\right] \\=& \mathbb{E}_{D}\left[(f(\boldsymbol{x} ; D)-\bar{f}(\boldsymbol{x}))^{2}\right]+(\bar{f}(\boldsymbol{x})-y)^{2}+\mathbb{E}_{D}\left[\left(y_{D}-y\right)^{2}\right] \\ =& var(x)+bias^2+\varepsilon^2\end{aligned}
E(f;D)========ED[(f(x;D)−yD)2]ED[(f(x;D)−fˉ(x)+fˉ(x)−yD)2]ED[(f(x;D)−fˉ(x))2]+ED[(fˉ(x)−yD)2]+ED[2(f(x;D)−fˉ(x))(fˉ(x)−yD)]ED[(f(x;D)−fˉ(x))2]+ED[(fˉ(x)−yD)2]ED[(f(x;D)−fˉ(x))2]+ED[(fˉ(x)−y+y−yD)2]ED[(f(x;D)−fˉ(x))2]+ED[(fˉ(x)−y)2]+ED[(y−yD)2]+2ED[(fˉ(x)−y)(y−yD)]ED[(f(x;D)−fˉ(x))2]+(fˉ(x)−y)2+ED[(yD−y)2]var(x)+bias2+ε2
也就是说,繁华误差可以被分解成方差、偏差和噪声之和。这被称之为偏差-方差分解(bias-variance decomposition)
还有一种现象需要说明,那就是一般来说偏差和方差是有冲突的,这被称之为偏差-方差窘境(bias-variance dilemma)。这是因为偏差衡量了模型精准度,实际上跟模型的训练程度有关,当模型训练程度大的时候,偏差显然会小;但是当模型训练程度大的时候,对训练数据就会比较敏感,因此方差就会增大。
3. 协方差(Covariance)
3.1 协方差初探
协方差度量了两个变量的“协同变动程度”,也就是一个变量偏离中心的大小会对另一个变量偏离中心的大小的影响。协方差的数学定义为:
C
o
v
(
X
,
Y
)
=
E
[
(
X
−
m
1
)
(
Y
−
m
2
)
]
Cov(X,Y)=E[(X-m_{1})(Y-m_{2})]
Cov(X,Y)=E[(X−m1)(Y−m2)]其中,
m
1
m_{1}
m1、
m
2
m_{2}
m2分别是
X
X
X、
Y
Y
Y的期望。
3.2 协方差的常用结论
协方差有以下常用结论
- C o v ( X , Y ) = E ( X Y ) − m 1 m 2 Cov(X,Y)=E(XY)-m_{1}m_{2} Cov(X,Y)=E(XY)−m1m2
- C o v ( c 1 X + c 2 , c 3 Y + c 4 ) = c 1 c 2 C o v ( X , Y ) Cov(c_{1}X+c_{2},c_{3}Y+c_{4})=c_{1}c_{2}Cov(X,Y) Cov(c1X+c2,c3Y+c4)=c1c2Cov(X,Y)
- 两个独立随机变量的协方差为0,但是协方差为0的两个随机变量不一定独立。
- [ C o v ( X , Y ) ] 2 ⩽ σ 1 2 σ 2 2 [Cov(X,Y)]^2\leqslant\sigma_{1}^2\sigma_{2}^2 [Cov(X,Y)]2⩽σ12σ22,当且仅当 X X X、 Y Y Y之间有严格的线性关系时等号成立。
3.2* 协方差与相关系数
相关系数度量了两个随机变量的线性相关关系。相关系数的数学表达为:
ρ
=
C
o
v
(
X
,
Y
)
σ
1
σ
2
\rho=\frac{Cov(X,Y)}{\sigma_{1}\sigma_{2}}
ρ=σ1σ2Cov(X,Y)从数学表达上我们可以看出来,相关系数实际上是“标准尺度下的协方差”,因为协方差最大次数是
X
Y
XY
XY,使用两个随机变量的标准差之积去除它,可以去掉随机变量量级不同的影响。
相关系数还有很多性质,比如说
∣
ρ
∣
⩽
1
|\rho|\leqslant1
∣ρ∣⩽1,当且仅当两个随机变量完全线性相关的时候取等号。为了更加深入理解不取等号时表达的线性关系,我们讨论两种情况:
- 第一种情况,当
ρ
1
>
0
\rho_{1}>0
ρ1>0时,考虑随机变量
X
、
Y
X、Y
X、Y服从二维均匀分布,如图3.1所示。
图3.1 正的相关系数示例
在这种情况下,我们可以发现,当 X X X变大的时候, Y Y Y有变大的趋势。 - 第二种情况,当
ρ
2
<
0
\rho_{2}<0
ρ2<0时,考虑随机变量
X
、
Y
X、Y
X、Y服从二维均匀分布,如图3.2所示。
图3.2 负的相关系数示例
在这种情况下,我们可以发现,当 X X X变大的时候, Y Y Y有变小的趋势;并且我们可以观察到,这种变化的趋势比第一种情况要快,因此有 ∣ ρ 1 ∣ < ∣ ρ 1 ∣ |\rho_{1}|<|\rho_{1}| ∣ρ1∣<∣ρ1∣。
关于相关系数的讨论还有很多,感兴趣的可以参考陈希孺先生的《概率论与数理统计》。
4. 距离(Distance)
现实生活中距离是对两个实体远近的一种实在度量,但是在数学上,距离是一个抽象的概念。在优化算法中,我们可以使用距离来度量损失函数。常见的距离有以下几种。
4.1 欧氏距离(Euclidean Distance)
欧氏距离与我们日常理解的距离内涵是一样的,它度量了两个实体物理上的远近。假设两个实体的坐标为
x
(
x
1
.
.
.
x
m
)
\boldsymbol{x}(x_{1}...x_{m})
x(x1...xm)和
y
(
y
1
.
.
.
y
m
)
\boldsymbol{y}(y_{1}...y_{m})
y(y1...ym),则它们之间的欧式距离可以定义为:
d
(
x
,
y
)
=
∑
i
=
1
m
(
x
i
−
y
i
)
2
d(\boldsymbol{x},\boldsymbol{y})=\sqrt{\sum_{i=1}^m(x_{i}-y_{i})^2}
d(x,y)=i=1∑m(xi−yi)2
欧氏距离是最常用的度量距离的方法。但是欧式距离有一个缺点,如果使用原始坐标计算欧氏距离,很可能会因为
x
和
y
\boldsymbol{x}和\boldsymbol{y}
x和y的量级不同而计算不准确。为了改善这一点,可以使用标准化后的坐标来计算标准欧式距离。
4.2 马氏距离(Mahalanobis Distance)
在欧氏距离中,因为量级(有的人称之为尺度,scale)差异带来的偏差可能导致距离度量的偏差,标准欧式距离解决了这一问题;但是标准欧式距离五忽略了不同维度属性之间的相关性。前面讲到,协方差是这种相关性的一个好的度量,因此马氏距离引入了协方差矩阵来度量距离。马氏距离的数学表达为:
d
(
x
,
y
)
=
(
x
−
y
)
T
Σ
−
1
(
x
−
y
)
d(\boldsymbol{x},\boldsymbol{y})=\sqrt{(\boldsymbol{x}-\boldsymbol{y})^T\Sigma^{-1}(\boldsymbol{x}-\boldsymbol{y})}
d(x,y)=(x−y)TΣ−1(x−y)
马氏距离还可以用来度量一个点到一个集合的距离,度量公式为:
d
(
x
,
Ω
)
=
(
x
−
u
)
T
Σ
−
1
(
x
−
u
)
d(\boldsymbol{x},\boldsymbol{\varOmega})=\sqrt{(\boldsymbol{x}-\boldsymbol{u})^T\Sigma^{-1}(\boldsymbol{x}-\boldsymbol{u})}
d(x,Ω)=(x−u)TΣ−1(x−u)
其中
u
\boldsymbol{u}
u是集合的均值向量。
关于马氏距离的讨论还有很多,感兴趣的可以参考维基百科。
4.3 曼哈顿距离(Manhattan Distance)
曼哈顿距离也叫作城市街区距离(City Block Distance),因为它衡量的是城市中一个点到另一个点的距离,图4.1中的红线、蓝线和黄线都是曼哈顿距离(它们的数值相等),绿线代表欧式距离。
图4.1 曼哈顿距离图例
据此,曼哈顿距离可以表示为:
d
(
x
,
y
)
=
∑
i
=
1
m
∣
x
i
−
y
i
∣
d(\boldsymbol{x},\boldsymbol{y})=\sum_{i=1}^m|x_{i}-y_{i}|
d(x,y)=i=1∑m∣xi−yi∣
4.4 切比雪夫距离(Chebyshev Distance)
切比雪夫距离(二维)可以形象地定义为,在国际象棋中,国王(可以横走、直走、斜走)从点
x
\boldsymbol{x}
x移动到
y
\boldsymbol{y}
y最少需要多少步,用数学表达为:
d
(
x
,
y
)
=
max
(
∣
x
1
−
x
2
∣
,
∣
y
1
−
y
2
∣
)
d(\boldsymbol{x},\boldsymbol{y})=\max \left(\left|x_{1}-x_{2}\right|,\left|y_{1}-y_{2}\right|\right)
d(x,y)=max(∣x1−x2∣,∣y1−y2∣)
可将二维拓展到多维的情况。
4.5 闵可夫斯基距离(Minkowski Distance)
闵可夫斯基距离是一类距离的统称,它的数学表达是:
d
(
x
,
y
)
=
∑
i
=
1
m
∣
x
i
−
y
i
∣
p
p
d(\boldsymbol{x},\boldsymbol{y})=\sqrt[p]{\sum_{i=1}^m|x_{i}-y_{i}|^p}
d(x,y)=pi=1∑m∣xi−yi∣p
当
p
=
1
p=1
p=1时,是曼哈顿距离;
当
p
=
2
p=2
p=2时,是欧氏距离;
当
p
=
∞
p=\infty
p=∞时,是切比雪夫距离。
这种统一的定义在数学中比比皆是,比如之前我们讲的矩。
4.6 海明距离(Hamming Distance)
海明距离与前面五种距离都不相同,他度量的是字符串之间的差异。严格的表述为:将其中一个字符串变为另一个所需要做的最小字符替换次数。
例如,"0001"和“0000”的海明距离是1;
例如,"0011"和“0000”的海明距离是2。
4.7 杰卡德距离(Jaccard Distance)
杰卡德相似系数度量了两个集合(
A
和
B
A和B
A和B)的交集在并集中所占的比例,即:
J
(
A
,
B
)
=
A
∩
B
A
∪
B
J(A, B)=\frac{A \cap B}{A \cup B}
J(A,B)=A∪BA∩B
杰卡德距离是1减去杰卡德相似系数,即:
d
(
A
,
B
)
=
∣
A
∪
B
∣
−
∣
A
∩
B
∣
∣
A
∪
B
∣
d(A,B)=\frac{|A \cup B|-|A \cap B|}{|A \cup B|}
d(A,B)=∣A∪B∣∣A∪B∣−∣A∩B∣
杰卡德距离可以用来比较两个集合的相似度。
本文完