数据样本中心化:
1、对一维随机变量
x
x
x,有n个观测样本
{
x
1
,
x
2
,
⋯
,
x
n
}
\{ x^1,x^2,\cdots,x^n\}
{x1,x2,⋯,xn},其样本均值(期望)可定义为:
μ
x
=
E
(
x
)
=
1
n
∑
i
=
0
n
x
i
\mu_x={E}\left(x\right)=\frac1n\sum_{i=0}^nx^i
μx=E(x)=n1i=0∑nxi这样,中心化操作后的新样本为:
z
i
=
x
i
−
μ
x
z^{i}=x^i-\mu_x
zi=xi−μx,并且
∑
i
n
z
i
=
0
\sum_i^nz^i=0
∑inzi=0
2、对于m维随机变量(特征、属性),定义随机向量:
x
=
[
x
1
x
2
⋮
x
m
]
,
x
∈
R
m
,
这
里
x
i
为
第
i
个
随
机
变
量
\pmb x=\begin{bmatrix} x_1 \\ x_2 \\ \vdots\\ x_m \\ \end{bmatrix} ,\pmb x \in R^m,这里x_i 为第i个随机变量
xxx=⎣⎢⎢⎢⎡x1x2⋮xm⎦⎥⎥⎥⎤,xxx∈Rm,这里xi为第i个随机变量这里,再对m个随机变量的n个观测样本
{
x
i
∈
R
m
∣
i
=
1
,
2
,
⋯
,
n
}
\{\pmb x^i\in R^m|i=1,2,\cdots,n\}
{xxxi∈Rm∣i=1,2,⋯,n} 定义样本矩阵:
X
=
[
x
1
x
2
⋯
x
n
]
=
[
x
1
1
x
1
2
⋯
x
1
n
x
2
1
x
2
2
⋯
x
2
n
⋮
⋮
⋱
⋮
x
m
1
x
m
2
⋯
x
m
n
]
,
X
∈
R
m
×
n
X=\begin{bmatrix} \pmb x^1 & \pmb x^2&\cdots & \pmb x^n \end{bmatrix}= \begin{bmatrix} x_1^1&x_1^2&\cdots&x_1^n\\ x_2^1&x_2^2&\cdots&x_2^n\\ \vdots&\vdots&\ddots&\vdots&\\ x_m^1&x_m^2&\cdots&x_m^n \end{bmatrix} ,X \in R^{m\times n}
X=[xxx1xxx2⋯xxxn]=⎣⎢⎢⎢⎡x11x21⋮xm1x12x22⋮xm2⋯⋯⋱⋯x1nx2n⋮xmn⎦⎥⎥⎥⎤,X∈Rm×n
x
j
i
x^i_j
xji表示第
i
i
i个样本在第
j
j
j个随机变量(特征、属性)上的取值。 这样,定义均值向量:
μ
x
=
E
(
x
)
=
[
E
(
x
1
)
E
(
x
2
)
⋮
E
(
x
m
)
]
=
1
n
[
∑
i
n
x
1
i
∑
i
n
x
2
i
⋮
∑
i
n
x
m
i
]
=
[
μ
x
1
μ
x
2
⋮
μ
x
m
]
\pmb {\mu_x}=E(\pmb x)=\begin{bmatrix} E(x_1) \\ E(x_2 ) \\ \vdots\\ E( x_m) \\ \end{bmatrix} =\frac 1n\begin{bmatrix} \sum_i^nx_1^i\\ \sum_i^nx_2^i \\ \vdots\\ \sum_i^nx_m^i \\ \end{bmatrix}= \begin{bmatrix} \mu_{x_1} \\ \mu_{x_2} \\ \vdots\\ \mu_{x_m} \\ \end{bmatrix}
μxμxμx=E(xxx)=⎣⎢⎢⎢⎡E(x1)E(x2)⋮E(xm)⎦⎥⎥⎥⎤=n1⎣⎢⎢⎢⎡∑inx1i∑inx2i⋮∑inxmi⎦⎥⎥⎥⎤=⎣⎢⎢⎢⎡μx1μx2⋮μxm⎦⎥⎥⎥⎤
中心化操作后新样本矩阵为:
Z
=
[
z
1
z
2
⋯
z
n
]
=
[
x
1
−
μ
x
x
2
−
μ
x
⋯
x
n
−
μ
x
]
Z=\begin{bmatrix} \pmb z^1 & \pmb z^2&\cdots & \pmb z^n \end{bmatrix}= \begin{bmatrix} \pmb x^1-\pmb{ \mu_ x}& \pmb x^2-\pmb{ \mu_ x}&\cdots &\pmb x^n-\pmb{ \mu_ x}& \end{bmatrix}
Z=[zzz1zzz2⋯zzzn]=[xxx1−μxμxμxxxx2−μxμxμx⋯xxxn−μxμxμx]然后有
∑
i
n
z
i
=
0
\sum_i^n\pmb z^i=\pmb 0
∑inzzzi=000
样本协方差矩阵
1、对于两个一维随机变量
x
x
x和
y
y
y的协方差可定义为:
E
[
(
x
−
μ
x
)
(
y
−
μ
y
)
]
=
1
n
−
1
∑
i
n
(
x
i
−
μ
x
)
(
y
i
−
μ
y
)
E[(x-\mu _x)(y-\mu_y)]=\frac 1{n-1}\sum_i^n (x_i-\mu_x)(y_i-\mu_y)
E[(x−μx)(y−μy)]=n−11i∑n(xi−μx)(yi−μy)若样本已提前中心化,即新样本
z
i
=
x
i
−
μ
x
z^{i}=x^i-\mu_x
zi=xi−μx,
u
i
=
x
i
−
μ
y
u^{i}=x^i-\mu_y
ui=xi−μy并且
∑
i
n
z
i
=
0
\sum_i^nz^i=0
∑inzi=0,
∑
i
n
u
i
=
0
\sum_i^n u^i=0
∑inui=0,带入上式得:
E
[
(
x
−
μ
x
)
(
y
−
μ
y
)
]
=
1
n
−
1
∑
i
n
(
x
i
−
μ
x
)
(
y
i
−
μ
y
)
=
1
n
−
1
∑
i
n
z
i
u
i
E[(x-\mu _x)(y-\mu_y)]=\frac 1{n-1}\sum_i^n (x_i-\mu_x)(y_i-\mu_y)=\frac 1 {n-1}\sum_i^nz^iu^i
E[(x−μx)(y−μy)]=n−11i∑n(xi−μx)(yi−μy)=n−11i∑nziui
2、对于多维随机向量
x
\pmb x
xxx的自协方差矩阵(通常机器学习里提到的样本协方差矩阵),它是根据向量外积定义的:
E
[
(
x
−
μ
x
)
(
x
−
μ
x
)
T
]
=
1
n
−
1
∑
i
n
(
x
i
−
μ
x
)
(
x
i
−
μ
x
)
T
E[(\pmb x-\pmb{\mu_x})(\pmb x-\pmb{\mu_x})^T]=\frac 1{n-1}\sum_i^n(\pmb x^i-\pmb{\mu_x})(\pmb x^i-\pmb{\mu_x})^T
E[(xxx−μxμxμx)(xxx−μxμxμx)T]=n−11i∑n(xxxi−μxμxμx)(xxxi−μxμxμx)T同理若样本已中心化,则
E
[
(
x
−
μ
x
)
(
x
−
μ
x
)
T
]
=
1
n
−
1
∑
i
n
(
x
i
−
μ
x
)
(
x
i
−
μ
x
)
T
=
1
n
−
1
∑
i
n
z
i
(
z
i
)
T
=
1
n
−
1
Z
Z
T
E[(\pmb x-\pmb{\mu_x})(\pmb x-\pmb{\mu_x})^T]=\frac 1{n-1}\sum_i^n(\pmb x^i-\pmb{\mu_x})(\pmb x^i-\pmb{\mu_x})^T=\frac 1{n-1}\sum_i^n\pmb z^i(\pmb z^i)^T=\frac 1{n-1}ZZ^T
E[(xxx−μxμxμx)(xxx−μxμxμx)T]=n−11i∑n(xxxi−μxμxμx)(xxxi−μxμxμx)T=n−11i∑nzzzi(zzzi)T=n−11ZZT注:分块矩阵乘法可得
∑
i
n
z
i
(
z
i
)
T
=
[
z
1
z
2
⋯
z
n
]
[
(
z
1
)
T
(
z
2
)
T
⋮
(
z
n
)
T
]
=
Z
Z
T
\sum_i^n\pmb z^i(\pmb z^i)^T= \begin{bmatrix} \pmb z^1&\pmb z^2&\cdots&\pmb z^n \end{bmatrix} \begin{bmatrix} (\pmb z^1)^T \\ (\pmb z^2)^T \\ \vdots\\ ( \pmb z^n)^T \\ \end{bmatrix}=ZZ^T
i∑nzzzi(zzzi)T=[zzz1zzz2⋯zzzn]⎣⎢⎢⎢⎡(zzz1)T(zzz2)T⋮(zzzn)T⎦⎥⎥⎥⎤=ZZT