关于随机变量的数字特征
均值,方差,协方差更专业的说法叫做随机变量的数字特征,均值叫做一阶中心距,方差叫做二阶中心距等等
均值:
E
(
X
)
=
∫
−
∞
+
∞
x
∗
p
(
x
)
d
x
E(X)= \int_{-\infty}^{+\infty}x*p(x)dx
E(X)=∫−∞+∞x∗p(x)dx
方差:
V
a
r
(
x
)
=
∫
−
∞
+
∞
p
x
∗
(
x
−
E
(
x
)
)
2
d
x
Var(x) = \int_{-\infty}^{+\infty}px*(x-E(x))^2dx
Var(x)=∫−∞+∞px∗(x−E(x))2dx
我们说数字特征能够反映出样本的特点和信息,实际上可以将上述和
p
(
x
)
p(x)
p(x)相乘(做内积)的函数(向量)考虑成探针,用于探测概率密度为
p
(
x
)
p(x)
p(x)这个随机变量
X
X
X的特征。不同的测量函数有不同的展开。
如何理解事件独立?
实际上
P
(
A
∣
B
)
=
P
(
A
)
P(A\mid B)=P(A)
P(A∣B)=P(A)表示A与B相互独立
而有些同学可能会混淆
P
(
A
⋂
B
)
≠
∅
P(A\bigcap B)\neq\empty
P(A⋂B)=∅和A与B相互独立这两个概念
以下图为例,图中显然A与B是有交集的,但是仍然不影响A与B独立的概念,只需要:
P
(
A
⋂
B
)
P
(
B
)
=
P
(
A
)
{P(A\bigcap B)\over P(B)}=P(A)
P(B)P(A⋂B)=P(A)
即
A
A
A发生的概率等于
A
⋂
B
A\bigcap B
A⋂B事件在
B
B
B中发生的概率
关于最大似然估计
如果给定一个随机变量的分布,例如已知数据点服从高斯分布,那么只需要知道均值和方差即能够得到该分布。现有一堆数据点,比如多项式曲线拟合,为了得到
w
w
w,我们建立了一个损失函数
L
(
w
)
L(w)
L(w),我们通过最小化
L
(
w
)
L(w)
L(w)得到我们的参数
w
w
w。
实际上可以将这个过程理解为,为了得到我们的参数
w
w
w,我们建立了一个评价函数,使得
w
w
w和该评价函数相关联。
最大似然函数
(
M
L
E
)
(MLE)
(MLE):
max
μ
,
σ
L
(
X
;
μ
,
σ
)
\max_{\mu ,\sigma}L(X;\mu,\sigma)
μ,σmaxL(X;μ,σ)
其中
X
X
X是随机变量,
X
∼
N
(
μ
,
σ
2
)
X\sim N(\mu,\sigma^2)
X∼N(μ,σ2)
求解的条件为:
∂
L
∂
μ
=
0
\frac{\partial L}{\partial \mu}=0
∂μ∂L=0
∂
L
∂
σ
2
=
0
\frac{\partial L}{\partial \sigma^2}=0
∂σ2∂L=0
为什么MLE方程需要取
l
o
g
log
log —防止溢出
提示:有余力的同学可以去学习CMU的凸优化
拓展:在多项式拟合曲线的实验中,除了使用OLS建立的loss function,是否可以使用MLE,建议最大似然函数,两者是否等价?(等价,可参考Bishop的书)
Homework:
在多项式拟合实验中:
L
(
W
)
=
∑
(
y
(
x
n
,
w
)
−
t
n
)
2
+
λ
∥
w
∥
)
L(W) = \sum ({y(x_{n},w)-t_{n}})^2+\lambda \parallel w\parallel)
L(W)=∑(y(xn,w)−tn)2+λ∥w∥)
可以将w看成是未知的先验项,我们所做的是要通过观测到的随机变量
X
X
X,得到对
w
w
w的估计。