又好久没写博客,没做出什么有成果的东西。放飞自我,决定新开一坑,开始啃这本书了(直接读的原版的,看不懂的就去翻一下手边那本中文版,说起来这本中文版的还是我的一个学霸同学B-L Wang送我的,要好好珍惜!)。
希望自己能读下来吧,就算读不下来,也至少要读某个章再停下,不要章中间断掉。
不对原书内容做总结了,只简要记录下自己读过后刷新的知识点,这些多是原先不会的,含糊的。需要配合书本看博客。
第1章 Introduction
1.1 Example: Polynomial Curve Fitting
P9 过拟合是最大似然的一般特性
过拟合问题可以看作是最大似然的一个一般特性,通过采用贝叶斯的方法,过拟合问题可以被避免。
P11 L2正则不惩罚偏置项
L2正则项通常不会惩罚偏置系数 w 0 w_0 w0,因为这会导致预测偏向于0.
P11 神经网络中的权重衰减即ridge regression
在神经网络当作,ridge regression称为weight decay(权重衰减或权值衰减(中文译本))。
1.2 Probability Theory
P18 Exercise1.4 经过函数变换后的分布极值点
给定连续分布
p
x
(
x
)
p_x(x)
px(x)和非线性变换
x
=
g
(
y
)
x=g(y)
x=g(y),通过
p
y
(
y
)
=
p
x
(
x
)
∣
d
x
d
y
∣
=
p
x
(
g
(
y
)
)
∣
g
′
(
y
)
∣
p_y(y)=p_x(x)\left | \frac{dx}{dy} \right | = p_x(g(y))\left | g'(y) \right |
py(y)=px(x)∣∣∣∣dydx∣∣∣∣=px(g(y))∣g′(y)∣
得到
p
y
(
y
)
p_y(y)
py(y)。注意
p
y
(
y
)
p_y(y)
py(y)取到最大值的
y
^
\hat{y}
y^,
p
x
(
x
)
p_x(x)
px(x)取到最大值的
x
^
\hat{x}
x^,一般情况下并不直接满足
x
^
=
g
(
y
^
)
\hat{x}=g(\hat{y})
x^=g(y^)。这是由于
p
y
′
(
y
)
=
s
p
x
′
(
g
(
y
)
)
{
g
′
(
y
)
}
2
+
s
p
x
(
g
(
y
)
)
g
′
′
(
y
)
p'_y(y)=sp'_x(g(y))\{g'(y)\}^2+sp_x(g(y))g''(y)
py′(y)=spx′(g(y)){g′(y)}2+spx(g(y))g′′(y)
其中
s
∈
{
−
1
,
+
1
}
s \in \{ -1,+1 \}
s∈{−1,+1},满足
g
′
(
y
)
=
s
∣
g
′
(
y
)
∣
g'(y)=s \left | g'(y) \right |
g′(y)=s∣g′(y)∣.
等式右侧第二项的存在导致了这个性质的出现。如果
x
=
g
(
y
)
x=g(y)
x=g(y)是线性变换,那么第二项消失,此时满足
x
^
=
g
(
y
^
)
\hat{x}=g(\hat{y})
x^=g(y^)。
如图所示,绿色线表示
p
x
(
g
(
y
)
)
p_x(g(y))
px(g(y)),直方图由50000次采样画出。
P20 条件分布的条件期望公式
E x [ f ∣ y ] = ∑ x p ( x ∣ y ) f ( x ∣ y ) \mathbb{E}_x[f|y]=\sum_{x}p(x|y)f(x|y) Ex[f∣y]=x∑p(x∣y)f(x∣y)
P20 独立则协方差为0
如果变量 x x x和 y y y独立,那么它们的协方差为0.
P22, 23 频率方法的极端问题
频率方法认为
w
{w}
w是一个固定的参数,这个值通过某种形式的估计得到,估计的误差又由考察可能的数据集
D
\mathcal{D}
D概率分布得到。而贝叶斯方法认为只有一个观测数据集
D
\mathcal{D}
D,参数的不确定性通过
w
w
w的概率分布来表达。
频率方法的一个缺点是:考虑一枚扔三次都朝上的硬币,频率观点利用最大似然会得到正面朝上的概率是1!而带有先验分布的贝叶斯方法不会这么极端。
P27 最大似然会低估方差
最大似然中因子通常为 N − 1 N \frac{N-1}{N} NN−1.
P30 MAP
L2正则项可看作是在
w
w
w的先验分布为0均值高斯分布的条件下,优化其最大后验概率,这种方法称为maximum posterior(MAP)
p
(
w
∣
x
,
t
,
α
,
β
)
∝
p
(
x
,
w
,
β
)
p
(
w
∣
α
)
p(w|\textbf{x}, \textbf{t},\alpha,\beta) \propto p(\textbf{x},\textbf{w}, \beta)p(w|\alpha)
p(w∣x,t,α,β)∝p(x,w,β)p(w∣α)
其中
x
\textbf{x}
x是features,
t
\textbf{t}
t是labels,
α
\alpha
α是
w
w
w先验分布有关的超参,
β
\beta
β是随机误差分布有关的参数,注意这种方法虽然涉及了
w
w
w的先验分布,但仍然不是贝叶斯方法,贝叶斯方法要自始至终应用概率的加和规则和乘积规则。
1.4 The Curse of Dimensionality
P36 高维空间密度分布
在高维空间当中, 超球的物质大多分布在很薄的边缘。
Exercise 1.17-1.20
Γ
(
x
)
≡
∫
0
∞
u
x
−
1
e
−
u
d
u
Γ
(
x
+
1
)
=
x
Γ
(
x
)
=
x
!
\Gamma (x) \equiv \int_{0}^{\infty}u^{x-1}e^{-u}du \\ \Gamma (x+1) =x\Gamma(x)=x!
Γ(x)≡∫0∞ux−1e−uduΓ(x+1)=xΓ(x)=x!
利用Gamma分布和
∫
e
−
x
2
d
x
\int e^{-x^2}dx
∫e−x2dx可以进一步推导出
D
D
D维单位球表面积公式和体积公式
S
D
=
2
π
D
/
2
Γ
(
D
/
2
)
V
D
=
S
D
D
S_D=\frac{2\pi ^{D/2}}{\Gamma (D/2)} \\ V_D = \frac{S_D}{D}
SD=Γ(D/2)2πD/2VD=DSD
接着可证随着
D
→
∞
D \to \infty
D→∞,单位球比单位立方体的体积趋于0,同时到角的距离比到面的距离越来越大,说明体积集中在数量众多的角上,变成很长的“尖刺”。
P36 与高斯分布点到原点距离的分布
继续上一Part的写法,
高维高斯分布,从极坐标半径的概率密度来看
p
(
r
)
=
S
D
r
D
−
1
(
2
π
σ
2
)
D
/
2
e
x
p
(
−
r
2
2
σ
2
)
p(r)=\frac{S_Dr^{D-1}}{(2\pi\sigma ^2)^{D/2}}exp(-\frac {r^2}{2\sigma ^2})
p(r)=(2πσ2)D/2SDrD−1exp(−2σ2r2)
概率最大的位置并非原点,而是大约位于
D
σ
\sqrt {D}\sigma
Dσ的位置,在贝叶斯推断中,这个性质很重要。
1.5 Decision Theory
P43 生成模型与判别模型
关于生成模型与判别模型:生成模型将分类问题划分成推断(inference)和决策(decision)两个阶段,在推断阶段,用训练数据学习
p
(
C
k
∣
x
)
p(C_k|\textbf{x})
p(Ck∣x),在决策阶段,用后验概率进行最优分类。生成模型隐式或显式地对输入及输出建模。
判别模型将同时解决两个问题,简单的学习一个函数,直接将
x
\textbf{x}
x映射为决策。
P47 回归的期望损失
E
[
L
]
=
∫
{
y
(
x
)
−
E
[
t
∣
x
]
}
2
p
(
x
)
d
x
+
∫
{
E
[
t
∣
x
]
−
t
}
2
p
(
x
)
d
x
\mathbb{E}[L]=\int {\{y(x)-\mathbb{E}[t|x]}\}^2p(x)dx+\int{\{\mathbb{E}[t|x]-t\}^2p(x)dx}
E[L]=∫{y(x)−E[t∣x]}2p(x)dx+∫{E[t∣x]−t}2p(x)dx
其中
y
y
y是判别函数,
t
t
t是label,
p
(
x
)
p(x)
p(x)是x的先验分布。注意这个损失并不要求噪声项是高斯分布。
- 平方损失函数不是唯一选择,在有些情况下,会导致非常差的结果,比如
p
(
t
∣
x
)
p(t|\bm x)
p(t∣x)多峰情况。这里推广平方损失函数,叫做闵科夫斯基损失函数Minkowski loss
- q = 2 q=2 q=2,最小值是条件均值
- q = 1 q=1 q=1,最小值是中位数
- q = 0 q=0 q=0,最小值是条件众数
1.6 Information Theory
P48 信息量
信息量可以看作是知道
x
x
x之后的“惊讶程度”。信息量的函数
h
(
⋅
)
h(\cdot )
h(⋅)可以通过如下方式寻找:
对于两个不相关事件
x
x
x和
y
y
y,两个事件同时发生时获得的信息应该等于观察到各自事件时获得的信息
h
(
x
,
y
)
=
h
(
x
)
+
h
(
y
)
p
(
x
,
y
)
=
p
(
x
)
p
(
y
)
h(x,y)=h(x)+h(y)\\ p(x,y)=p(x)p(y)
h(x,y)=h(x)+h(y)p(x,y)=p(x)p(y)
可以得出
h
(
x
)
=
−
l
o
g
2
(
p
)
h(x)=-log_2(p)
h(x)=−log2(p)
注意符号保证信息一定大于等于0,低概率事件对应高信息量。以2为底时,
h
(
x
)
h(x)
h(x)的单位是bit(binary digit).
P53 微分熵
把信息量的概念扩展到连续变量
x
x
x上,把
x
x
x切分成宽度为
Δ
\Delta
Δ的箱子,假设
p
(
x
)
p(x)
p(x)连续,均值定理保证小区间内一定存在
x
i
x_i
xi,使得
∫
i
Δ
(
i
+
1
)
Δ
p
(
x
)
d
x
=
p
(
x
i
)
Δ
\int_{i\Delta}^{(i+1)\Delta} p(x)dx=p(x_i)\Delta
∫iΔ(i+1)Δp(x)dx=p(xi)Δ
现在这样量化连续变量
x
x
x:只要
x
x
x落在了第i个箱子中,就把
x
x
x赋值为
x
i
x_i
xi,因此观察到
x
i
x_i
xi的概率为
p
(
x
i
)
Δ
p(x_i)\Delta
p(xi)Δ,熵的形式为:
H
Δ
=
−
∑
i
p
(
x
i
)
Δ
l
n
(
p
(
x
i
)
Δ
)
=
−
∑
i
p
(
x
i
)
Δ
l
n
p
(
x
i
)
−
l
n
Δ
H_\Delta=-\sum_{i}p(x_i)\Delta ln(p(x_i)\Delta)=-\sum_{i}p(x_i)\Delta ln\,p(x_i)-ln\,\Delta
HΔ=−i∑p(xi)Δln(p(xi)Δ)=−i∑p(xi)Δlnp(xi)−lnΔ
省略右侧第二项,考虑极限
Δ
→
0
\Delta \to 0
Δ→0
lim
Δ
→
0
{
−
∑
i
p
(
x
i
)
Δ
l
n
p
(
x
i
)
}
=
−
∫
p
(
x
)
l
n
p
(
x
)
d
x
\lim_{\Delta \to 0}\{ -\sum_{i}p(x_i)\Delta ln\,p(x_i) \}=-\int p(x)ln\,p(x)\,dx
Δ→0lim{−i∑p(xi)Δlnp(xi)}=−∫p(x)lnp(x)dx
右侧被称为微分熵(differential entropy),注意熵的连续和离散形式的差是
Δ
→
0
\Delta \to 0
Δ→0.
P54 信息熵最大的连续分布
微分熵的最大值在高斯分布取到,不过需要约束分布的一阶矩和二阶矩:
∫
−
∞
∞
p
(
x
)
d
x
=
1
∫
−
∞
∞
x
p
(
x
)
d
x
=
μ
∫
−
∞
∞
(
x
−
μ
)
2
p
(
x
)
d
x
=
σ
2
\int_{-\infty}^{\infty}p(x)dx =1 \\ \int_{-\infty}^{\infty}xp(x)dx = \mu \\ \int_{-\infty}^{\infty}(x-\mu)^2p(x)dx = \sigma^2
∫−∞∞p(x)dx=1∫−∞∞xp(x)dx=μ∫−∞∞(x−μ)2p(x)dx=σ2
利用拉格朗日乘子法,再使用变分法,参考变分法在机器学习中的应用,令导数为0,求得:
p
(
x
)
=
1
(
2
π
σ
2
)
1
/
2
e
x
p
{
−
(
x
−
μ
)
2
2
σ
2
}
p(x)=\frac{1}{(2\pi\sigma^2)^{1/2}} exp\{-\frac{(x-\mu)^2}{2\sigma^2}\}
p(x)=(2πσ2)1/21exp{−2σ2(x−μ)2}
P55-57 相对熵又叫KL散度
P57 最小化KL散度等价于最大化最大似然函数
P57 互信息
I
[
x
,
y
]
≡
K
L
(
p
(
x
,
y
)
∣
∣
p
(
x
)
p
(
y
)
)
=
−
∬
p
(
x
,
y
)
l
n
(
p
(
x
)
p
(
y
)
p
(
x
,
y
)
)
d
x
d
y
I
[
x
,
y
]
=
H
[
x
]
−
H
[
x
∣
y
]
=
H
[
y
]
−
H
[
y
∣
x
]
I[x,y]\equiv KL(p(x,y)||p(x)p(y)) = -\iint p(x,y)ln(\frac{p(x)p(y)}{p(x,y)})dxdy \\ I[x,y] = H[x] - H[x|y] = H[y] - H[y|x]
I[x,y]≡KL(p(x,y)∣∣p(x)p(y))=−∬p(x,y)ln(p(x,y)p(x)p(y))dxdyI[x,y]=H[x]−H[x∣y]=H[y]−H[y∣x]
互信息表示观测y造成的x的不确定性的减小。
参考文献:
[1] Christopher M. Bishop. Pattern Recognition and Machine Learning. 2006