3.10 常用函数的有用性质
- logistic sigmoid函数
适用于生成伯努利分布参数与逻辑回归,二者本质一样,同为二分类问题
神经网络中的激活函数,为了使得网络非线性化,可能导致梯度消失
σ ( x ) = 1 1 + e x p ( − x ) \sigma(x) = \frac {1}{1+ \mathbf {exp}(-x)} σ(x)=1+exp(−x)1
其导数被应用在神经网络的反向传播之中
可以观察到,其导数为其自身,能够简化链式求导
其最大值为0.25,所以在链式求导中,可能存在连乘后梯度消失的情况
σ
′
(
x
)
=
σ
(
x
)
(
1
−
σ
(
x
)
)
\sigma^{'}(x) = \sigma(x)(1-\sigma(x))
σ′(x)=σ(x)(1−σ(x))
- softplus函数
softplus函数本质上就是对于Relu函数的平滑结果
relu与softplus激活函数更符合神经元的激活模式反正他们都这么说
并且易于求导,能解决梯度消失,增加0部分有效解决过拟合.
softplus函数: ζ ( x ) = l o g ( 1 + e x p ( x ) ) \zeta(x)=log(1+exp(x)) ζ(x)=log(1+exp(x))
relu函数: x + = m a x ( 0 , x ) \qquad x^{+} =max(0,x) x+=max(0,x)
3.11 贝叶斯规则(Baye’s rule)
贝叶斯规则也是贝叶斯分类器的理论核心
已知类别上的特征,求已知特征的类别。其中
x
x
x为类别,
y
y
y为特征
P
(
x
∣
y
)
=
P
(
x
)
P
(
y
∣
x
)
P
(
y
)
P(x \ | \ y) =\frac {P(x)P(y \ | \ x)}{P(y)}
P(x ∣ y)=P(y)P(x)P(y ∣ x)
3.12 连续型变量的技术细节
测度论(measure theropy)–》解决一些连续型随机变量和概率密度函数的矛盾点
-
提供集合特征,避免悖论
悖论:Banach-Tarski悖论,分球悖论
在概率论上的表现为:
存在 S 1 \mathbb S_{1} S1与 S 2 \mathbb S_{2} S2两个区间,已知在连续型分布中, x x x落在以上两个区间的概率可以通过积分获得。但是可能存在通过大量使用实数的无限精度构造情况:
p ( x ∈ S 1 ) + p ( x ∈ S 2 ) > 1 p(x \in \mathbb S_{1})+p(x \in \mathbb S_{2})>1 p(x∈S1)+p(x∈S2)>1其中
S 1 ⋂ S 2 = ∅ \mathbb S_{1} \bigcap \mathbb S_{2} = \emptyset S1⋂S2=∅ -
提出零测度(measure zero)描述微小的点集
零测度集在目前的度量空间中不占有任何体积。
例如:在 R 2 \mathbb R^{2} R2空间中,直线的测度为零,多边形的测度为正 -
几乎处处(almost everywhere)剔除零测度的集合
剔除测度为零的集合以外处处成立,则被称为几乎处处,一般来说对于所有连续值的成立,只能被称几乎处处。
另一项容易产生矛盾的技术细节为处理相互有确定性函数关系的连续型变量
设存在随机变量
x
\mathbf x
x与
y
\mathbf y
y,其中
y
=
g
(
x
)
y = g(x)
y=g(x),
g
g
g为连续可微,可逆的函数。
其中,
p
y
(
y
)
=
p
x
(
g
−
1
(
x
)
)
p_y(y) = p_x(g^{-1}(x))
py(y)=px(g−1(x))是错误的
例子:设上述
x
\mathbf x
x与
y
\mathbf y
y满足
y
=
x
2
y = \frac {x}{2}
y=2x且
x
∼
U
(
0
,
1
)
x \sim U(0,1)
x∼U(0,1)。
假设
p
y
(
y
)
=
p
x
(
2
y
)
p_y(y) = p_x(2y)
py(y)=px(2y),其中
p
y
p_y
py除了区间
[
0
,
1
2
]
[0,\frac {1}{2}]
[0,21]以外为0,在这个区间上值为1.故积分为:
∫
p
y
(
y
)
d
y
=
1
2
\int p_y(y)dy = \frac {1}{2}
∫py(y)dy=21 可见不为1,所以产生错误。
其原因为:
x
x
x落在区域无穷小区域
δ
x
\delta x
δx的概率为
p
(
x
)
δ
x
p(x)\delta x
p(x)δx。但是经过函数
g
g
g,
y
y
y空间中的无穷小区域
δ
y
\delta y
δy经过了扩张或压缩,在
x
x
x空间中包括
x
x
x的无穷小体积与
y
y
y空间有不同的体积。这种体积存在一定的线性关系。
为了解决这一问题,回到标量进行计算
∣
p
y
(
g
(
x
)
)
d
y
∣
=
∣
p
x
(
x
)
d
x
∣
| \ p_y(g(x))dy \ |=| \ p_x(x)dx \ |
∣ py(g(x))dy ∣=∣ px(x)dx ∣
p
y
(
y
)
=
p
x
(
g
−
1
(
y
)
)
∣
∂
x
∂
y
∣
p_y(y)=p_x(g^{-1}(y)) \begin{vmatrix} \frac {\partial x}{\partial y} \end{vmatrix}
py(y)=px(g−1(y))∣∣∣∂y∂x∣∣∣
等价的
p
x
(
x
)
=
p
y
(
g
(
x
)
)
∣
∂
g
(
x
)
∂
x
∣
p_x(x)=p_y(g(x))\begin{vmatrix} \frac {\partial g(x)}{\partial x} \end{vmatrix}
px(x)=py(g(x))∣∣∣∂x∂g(x)∣∣∣
在高维空间中,微分算法拓展为雅可比矩阵(Jacobian matrix)的行列式
其中
J
i
,
j
=
∂
x
i
∂
y
j
J_{i,j} = \frac {\partial x_i}{\partial y_j}
Ji,j=∂yj∂xi
p
x
(
x
)
=
p
y
(
g
(
x
)
)
∣
d
e
t
(
∂
g
(
x
)
∂
x
)
∣
p_x(x) = p_y(g(x))\begin{vmatrix} det(\frac {\partial g(x)}{\partial x})\end{vmatrix}
px(x)=py(g(x))∣∣∣det(∂x∂g(x))∣∣∣
3.13 信息论
信息论主要研究对一个信号包含信息的多少进行量化
其基本想法为:一个不太可能的事件发生了,比非常可能的事件发生,能提供更多的信息。太阳从西边出来比从东边起来有更多信息。
此外:
- 非常可能发生的时间信息量少,确定事件应该没有信息量
- 较不可能发生的事件具有更高的事件量
- 独立事件有增量的信息,投掷硬币两次朝上的信息量是一次正面朝上的两倍。
为了满足上述性质,定义事件
x
=
x
\mathbf x =x
x=x的自信息(self-information)为
I
(
x
)
=
−
l
o
g
P
(
x
)
I(x) =-\mathbf {log}P(x)
I(x)=−logP(x)
单位为奈特(nats)指以
1
e
\frac {1}{e}
e1概率观测到一个事件时获得的信息量,在
x
\mathbf x
x是连续情况下使用时,有些离散形式的性质会丢失。如:具有单位密度的事件信息量为0,但是不能保证一定发生。这部分不太清楚,待查。。。
由于自信息只处理单个输出,香农熵(Shannon entropy)用来描述整个概率分布中不确定的总量,也是对于该分布的所有事件的期望信息总量
H ( x ) = − E x ∼ P [ l o g ( P ( x ) ) ] = − ∑ x P ( x ) l o g [ P ( x ) ] H(x) = -\mathbb E_{x\sim P}[{\rm log}(P(x))] = -\sum_xP(x){\rm log}[P(x)] H(x)=−Ex∼P[log(P(x))]=−x∑P(x)log[P(x)]
可见,当分布趋近于确定,熵值越小,分布俱进与均匀,熵值越大。在连续分布中,香农熵被称为微分熵(differential entropy)。
p = 0:0.01:1;
Shan_info = -p.*(log(p))-(1-p).*(log(1-p));
plot(p,Shan_info,'r');
title('二值随机分布香农熵','FontSize',16);
hold on;
axis([0 1.0 0 1.0])
xlabel('二值分布概率p')
ylabel('香农熵')
set(gca, 'XGrid','on');
set(gca, 'YGrid','on');
- KL散度(KL divergence)
对于一个随机变量的两个单独分布 P ( x ) P(x) P(x)与 Q ( x ) Q(x) Q(x),使用KL散度来衡量两个分布的差异。
D
K
L
(
P
∣
∣
Q
)
=
E
x
∼
P
[
l
o
g
P
(
x
)
Q
(
x
)
]
=
∑
x
P
(
x
)
[
l
o
g
P
(
x
)
Q
(
x
)
]
(
离
散
)
=
∫
x
P
(
x
)
[
l
o
g
P
(
x
)
Q
(
x
)
]
(
连
续
)
D_{KL}(P \ || \ Q) = \mathbb E_{x \sim P}\begin{bmatrix} {\rm log \frac {P(x)}{Q(x)}}\end{bmatrix} = \sum_xP(x)\begin{bmatrix}{\rm log}\frac {P(x)}{Q(x)}\end {bmatrix}(离散)= \int_xP(x)\begin{bmatrix}{\rm log}\frac {P(x)}{Q(x)}\end {bmatrix}(连续)
DKL(P ∣∣ Q)=Ex∼P[logQ(x)P(x)]=x∑P(x)[logQ(x)P(x)](离散)=∫xP(x)[logQ(x)P(x)](连续)
注意,KL分布并不是对称的,
D
K
L
(
P
∣
∣
Q
)
≠
D
K
L
(
P
∣
∣
Q
)
D_{KL}(P \ || \ Q) \neq D_{KL}(P\ || \ Q)
DKL(P ∣∣ Q)=DKL(P ∣∣ Q)
- 交叉熵(cross-entropy)
针对Q最小化交叉熵等同于最小化KL散度
交叉熵同样不对称
H ( P , Q ) = H ( P ) + D K L ( P ∣ ∣ Q ) = − E x ∼ P l o g Q ( x ) H(P,Q) = H(P)+D_{KL}(P\ || \ Q) = -\mathbb E_{x \sim P}{\rm log}Q(x) H(P,Q)=H(P)+DKL(P ∣∣ Q)=−Ex∼PlogQ(x)
3.14 结构化概率模型
因为存在随机变量非常多的概率分布,只有特定的一些变量具有相对关系,并且使用单一函数描述整个分布十分的低效没所以可以将原概率分布转化为若干个概率分布连乘的模式。
当用图来描述这种分解,称之为结构化概率模型(structured probabilistic model)或者图模型(graphic model)。其中,分别存在有向图与无向图两种模式。
- 有向图(directed)
有向图采用有向边的图模型,使用条件概率来进行分解,有向边说明随机变量之间的直接影响。对于有向图模型中的每一个随机变量 x i {\rm x}_i xi包含一个影响因子,被称为父节点,记为 P a g ( x ) i Pa_g({\rm x})_i Pag(x)i。
p ( x ) = ∏ i p ( x ∣ P a g ( x i ) ) p(\mathbf x) = \prod_{i}p({\rm x}\ | Pa_g({\rm x}_i)) p(x)=i∏p(x ∣Pag(xi))
如图所示
其代表的概率分布分解式为:
p ( a , b , c , d , e ) = p ( a ) p ( b ∣ a ) p ( c ∣ a , b ) p ( d ∣ b ) p ( e ∣ c ) p(\rm a,b,c,d,e) = p(\rm a)p(\rm b \ | \ a)p(c \ | \ \rm a,b )p(d \ | \ b)p(e \ | \ c) p(a,b,c,d,e)=p(a)p(b ∣ a)p(c ∣ a,b)p(d ∣ b)p(e ∣ c)
- 无向图(undirected)
无向图采用的是无向的边,图中两两之间通过边相连的部分称之为团,无向图中的每个团存在一个引子 ϕ ( i ) ( C ( i ) ) \phi^{(i)}(C^{(i)}) ϕ(i)(C(i)),此因子为一个函数,起到相当于权重或者参数的作用。
总体的联合概率与这些因子的乘积成比例(propotional),所以最好设置一个归一化参数 Z Z Z来归一化各项因子。
p ( x ) = 1 Z ∏ i ϕ ( i ) ( C ( i ) ) p(\mathbf x) = \frac {1}{Z}\prod_i\phi^{(i)}(C^{(i)}) p(x)=Z1i∏ϕ(i)(C(i))
如下图所示:
其代表的式子为:
p
(
a
,
b
,
c
,
d
,
e
)
=
1
Z
ϕ
(
1
)
(
a
,
b
,
c
)
ϕ
(
2
)
(
b
,
d
)
ϕ
(
3
)
(
c
,
e
)
p(\rm a,b,c,d,e) = \frac {1}{Z}\phi^{(1)}(\rm a,b,c)\phi^{(2)}(b,d)\phi^{(3)}(\rm c,e)
p(a,b,c,d,e)=Z1ϕ(1)(a,b,c)ϕ(2)(b,d)ϕ(3)(c,e)
有向图模型与无向图并不冲突,作为一种描述(describution)任何概率分布可以用这两种方式进行描述