文章目录
5.1 学习算法
- 任务T
- 经验E
- 性能度量P
5.1.1 任务T
任务
机器学习任务定义为机器学习熊应该如何处理样本(example);即对样本进行一个复杂的非线性变换从而能得到正确的结果。
样本
值从对象或事件中收集到的已经量化的特征(feature)的集合。
常见的任务
- 分类/输入缺失分类
f : R n → { 1 , 2 , ⋯   , k } f:R^n \rightarrow \{1,2,\cdots,k\} f:Rn→{1,2,⋯,k}
输出应该是一个概率分布(经过softmax转化),选概率最大的类别作为最终类别 - 回归
f : R n → R f:R^n \rightarrow R f:Rn→R
输出是连续实数 - 转录
将一些相对非结构化表示的数据信息,转录为离散的文本形式。
例如:OCR(光学字符识别),ASR(语音识别) - 机器翻译
seq2seq,输入是一种语言符号序列,输出是另一种语言符号序列 - 结构化输出
输出是向量或其他包含多个值的数据结构,输出值间内部紧密相关。
例如:语法树 - 异常检测
筛选出不正常或非典型的个体 - 合成与采样
生成一些和训练数据相似的新样本。
例如:VAE,GAN - 缺失值填充
- 去噪
输入被损坏的样本,通过损坏样本预测干净样本 - 密度估计
可以解释成样本采样空间的概率密度函数(连续)或概率质量函数(离散样本)
5.1.2 性能度量P
用于评估机器学习算法能力
- 回归任务:MSE(均方误差)
- 分类任务:错误率、准确率、精度与召回率、F1等
在测试集上评估系统性能
5.1.3 经验E
- 无监督学习:学习数据集有用的结构性质。
试图显示或隐式的学习出概率分布 p ( x ) p(x) p(x)。显示的例如密度估计,隐式的例如合成或去噪。其他类型例如聚类。(PCA) - 监督学习:样本中包含标签(label)或目标(target)
从x预测y,估计 p ( x ∣ y ) p(x|y) p(x∣y)。例如回归、分类(LDA) - 强化学习(reinforcement):学习系统和训练过程有反馈。
5.2 容量、过拟合、欠拟合
欠拟合
模型不能在训练集上获得较小误差。
过拟合
训练误差和测试误差间差距太大。
容量(capacity)
模型的容量指模型拟合各种函数的能力(模型的参数的多少)。低容量导致欠拟合;高容量导致过拟合。
- 泛化(generalization)
- 机器学习和优化不同的地方:希望泛化误差/测试误差低
- 度量测试集样本的性能,评估机器学习的泛化误差
- 决定学习算法是否好的因素
- 降低训练误差
- 缩小训练误差和测试误差的差距
- 奥卡姆剃刀:若有多个假设与观察一致,选择最简单的
- 没有免费的午餐定理:不存在能够在所有可能的分类问题中性能均为最优的算法。暗示我们在特定的任务上设计性能良好的算法。
- 解决方案:尽可能深入了解所面对的分布,找到先验知识
- 正则化:修改学习算法,使其降低泛华误差,而非训误差。
5.3 超参数、验证集
超参数
超参数的值不是通过学习算法本身学出来的。例如正则化的系数
λ
\lambda
λ。有时一个选项必须是超参数,因为它不适合在训练集上学习。
验证集
用于挑选超参数的数据子集。通常80%的数据用于训练,20%用于验证。
- 交叉验证
实际训练时数据可以分为
- 训练集:训练模型
- 交叉验证集:判断学习率是否要调整,何时结束训练。一般训练数据每过一轮(one epoch ),都要在交叉验证集上看一下损失函数。(只是一个辅助训练)
- 测试集:判断模型性能的好坏。
5.4 估计、偏差、方差
5.4.1 点估计
- 点估计
以抽样得到的样本指标做为总体指标的估计。并以样本指标的实际值做总体未知参数的估计值的一种推断。 - 区间估计
点估计无法精确的给出总体参数的精确值,所以在点估计的基础上加减一个边际误差的值来计算区间估计。 - 函数估计
指输入和目标变量之间关系的估计。例如线性回归,对每个参数 w i w_i wi的估计。
5.4.2 偏差和方差
![](https://i-blog.csdnimg.cn/blog_migrate/3e028ba250c370bbc8536c97eeefcf2b.png)
偏差
描述的是预测值(点估计)的期望和真实值之间的差距。偏差越大,越偏离真实数据
b
i
a
s
(
θ
^
)
=
E
(
θ
^
)
−
θ
bias(\hat \theta) = E(\hat \theta) - \theta
bias(θ^)=E(θ^)−θ
无偏估计
b
i
a
s
(
θ
^
)
=
0
bias(\hat \theta) = 0
bias(θ^)=0
举例:
-
伯努利分布 p ( x ( i ) ; θ ) = θ x ( i ) ( 1 − θ ) 1 − x ( i ) p(x^{(i)};\theta) = \theta^{x^{(i)}}(1-\theta)^{1-x^{(i)}} p(x(i);θ)=θx(i)(1−θ)1−x(i);
极大似然估计:
l = ∏ θ x ( i ) ( 1 − θ ) 1 − x ( i ) L = ∑ m ( x ( i ) log θ + ( 1 − x ( i ) ) log ( 1 − θ ) ) ∂ L ∂ θ = 1 θ ∑ m x ( i ) − 1 1 − θ ∑ m ( 1 − x ( i ) ) = ∑ m x ( i ) − m θ θ ( 1 − θ ) = 0 θ = 1 m ∑ m x ( i ) \begin{aligned} l & = \prod \theta^{x^{(i)}}(1-\theta)^{1-x^{(i)}}\\ L & = \sum^m \Big( x^{(i)}\log \theta + (1- x^{(i)})\log(1-\theta) \Big)\\ \frac{\partial L}{\partial \theta} & = \frac{1}{\theta}\sum^m x^{(i)} - \frac{1}{1-\theta}\sum^m(1-x^{(i)}) \\ &= \frac{\sum^m x^{(i)} - m\theta}{\theta(1-\theta)}=0 \\ \theta &= \frac{1}{m}\sum^m x^{(i)} \end{aligned} lL∂θ∂Lθ=∏θx(i)(1−θ)1−x(i)=∑m(x(i)logθ+(1−x(i))log(1−θ))=θ1∑mx(i)−1−θ1∑m(1−x(i))=θ(1−θ)∑mx(i)−mθ=0=m1∑mx(i)
偏差:
b i a s ( θ ^ ) = E ( θ ^ ) − θ = E ( 1 m ∑ m x ( i ) ) − θ = 1 m ∑ m E ( x ( i ) ) − θ = 1 m ∑ m ∑ x ( i ) = 0 ∣ 1 x ( i ) ( θ x ( i ) ( 1 − θ ) 1 − x ( i ) ) − θ = 1 m ∑ m θ − θ = 0 \begin{aligned} bias(\hat \theta) &= E(\hat \theta) - \theta\\ &= E(\frac{1}{m}\sum^m x^{(i)}) - \theta \\ & = \frac{1}{m}\sum^m E(x^{(i)}) - \theta \\ &= \frac{1}{m}\sum^m \sum_{x^{(i)} =0|1}x^{(i)}(\theta^{x^{(i)}}(1-\theta)^{1-x^{(i)}}) - \theta\\ &= \frac{1}{m}\sum^m \theta - \theta = 0 \end{aligned} bias(θ^)=E(θ^)−θ=E(m1∑mx(i))−θ=m1∑mE(x(i))−θ=m1∑mx(i)=0∣1∑x(i)(θx(i)(1−θ)1−x(i))−θ=m1∑mθ−θ=0
因此是无偏估计 -
高斯分布的样本方差
估计值是 μ ^ = 1 m ∑ x , σ ^ 2 = 1 m ∑ ( x − μ ^ ) 2 \hat \mu = \frac{1}{m}\sum x,\hat \sigma^2 = \frac{1}{m}\sum(x-\hat \mu)^2 μ^=m1∑x,σ^2=m1∑(x−μ^)2.方差估计的偏差为:
b i a s ( σ ^ 2 ) = E ( σ ^ 2 ) − σ 2 = E ( 1 m ∑ ( x ( i ) − μ ^ ) 2 ) − σ 2 = 1 m E ( ∑ ( x ( i ) − μ ^ ) 2 ) − σ 2 = 1 m E ∑ [ ( x ( i ) − μ ) − ( μ ^ − μ ) ] 2 − σ 2 = 1 m ∑ E ( x ( i ) − μ ) 2 − 2 m E ∑ ( μ ^ − μ ) ( x ( i ) − μ ) + m m E ( μ ^ − μ ) 2 − σ 2 \begin{aligned} bias(\hat \sigma^2) &= E(\hat \sigma^2) - \sigma^2 \\ &= E(\frac{1}{m}\sum(x^{(i)}-\hat \mu)^2) - \sigma^2 \\ & = \frac{1}{m} E(\sum(x^{(i)}-\hat \mu)^2) - \sigma^2\\ &= \frac{1}{m} E\sum[(x^{(i)}-\mu)-(\hat \mu -\mu)]^2 - \sigma^2\\ &= \frac{1}{m}\sum E(x^{(i)} -\mu)^2 -\frac{2}{m}E\sum(\hat \mu-\mu)(x^{(i)}-\mu) + \frac{m}{m}E(\hat \mu -\mu)^2 - \sigma^2 \\ \end{aligned} bias(σ^2)=E(σ^2)−σ2=E(m1∑(x(i)−μ^)2)−σ2=m1E(∑(x(i)−μ^)2)−σ2=m1E∑[(x(i)−μ)−(μ^−μ)]2−σ2=m1∑E(x(i)−μ)2−m2E∑(μ^−μ)(x(i)−μ)+mmE(μ^−μ)2−σ2
由于
∑ ( x ( i ) − μ ) = m 1 m ∑ ( x ( i ) − μ ) = m ( μ ^ − μ ) E ( μ ^ ) = E ( 1 m ∑ x ( i ) ) = μ \begin{aligned} \sum(x^{(i)}-\mu) & = m\frac{1}{m}\sum(x^{(i)}-\mu) = m(\hat\mu - \mu) \\ E(\hat \mu) &= E(\frac{1}{m}\sum x^{(i)}) = \mu \\ \end{aligned} ∑(x(i)−μ)E(μ^)=mm1∑(x(i)−μ)=m(μ^−μ)=E(m1∑x(i))=μ
因此
E ∑ ( μ ^ − μ ) ( x ( i ) − μ ) = m E ( μ ^ − μ ) 2 E\sum(\hat \mu-\mu)(x^{(i)}-\mu) =mE(\hat\mu - \mu)^2 \\ E∑(μ^−μ)(x(i)−μ)=mE(μ^−μ)2
原式变化为
b i a s ( σ ^ 2 ) = 1 m ∑ E ( x ( i ) − μ ) 2 − 2 E ( μ ^ − μ ) 2 − E ( μ ^ − μ ) 2 − σ 2 = 1 m ∑ E ( x ( i ) − μ ) 2 − E ( μ ^ − μ ) 2 − σ 2 \begin{aligned} bias(\hat \sigma^2) &= \frac{1}{m}\sum E(x^{(i)} -\mu)^2 -2E(\hat \mu -\mu)^2 - E(\hat \mu -\mu)^2 - \sigma^2\\ & = \frac{1}{m}\sum E(x^{(i)} -\mu)^2 -E(\hat \mu -\mu)^2 - \sigma^2\\ \end{aligned} bias(σ^2)=m1∑E(x(i)−μ)2−2E(μ^−μ)2−E(μ^−μ)2−σ2=m1∑E(x(i)−μ)2−E(μ^−μ)2−σ2
其中
E ( x ( i ) − μ ) 2 = σ 2 E ( μ ^ − μ ) 2 = D ( μ ^ ) = D ( 1 m ∑ x ( i ) ) = 1 m 2 ∑ D ( x ( i ) ) = σ 2 m \begin{aligned} E(x^{(i)} -\mu)^2 &= \sigma^2\\ E(\hat\mu - \mu)^2& = D(\hat\mu) = D(\frac{1}{m}\sum x^{(i)}) = \frac{1}{m^2}\sum D(x^{(i)}) = \frac{\sigma^2}{m} \\ \end{aligned} E(x(i)−μ)2E(μ^−μ)2=σ2=D(μ^)=D(m1∑x(i))=m21∑D(x(i))=mσ2
因此
b i a s ( σ ^ 2 ) = σ 2 − σ 2 m − σ 2 = − 1 m σ 2 bias(\hat \sigma^2) = \sigma^2 - \frac{\sigma^2}{m} - \sigma^2= \frac{-1}{m}\sigma^2 bias(σ^2)=σ2−mσ2−σ2=m−1σ2
得出结论 σ ^ 2 = 1 m ∑ ( x − μ ^ ) 2 \hat \sigma^2= \frac{1}{m}\sum(x-\hat \mu)^2 σ^2=m1∑(x−μ^)2不是无偏估计。
真正的无偏估计应该是 1 m − 1 ∑ ( x − μ ^ ) 2 \frac{1}{m-1}\sum(x-\hat \mu)^2 m−11∑(x−μ^)2
方差
描述的是预测值的变化范围,离散程度,即离期望值之间的距离。方差越大,数据的分布越分散。
V
a
r
(
θ
^
)
Var(\hat \theta)
Var(θ^)
偏差和方差的trade-off
- 偏差:度量着偏离真实函数或参数的误差期望
- 方差:度量数据上任意特定采样可能导致的估计期望的偏差
均方误差MSE:
M
S
E
=
E
(
θ
^
−
θ
)
2
=
b
i
a
s
(
θ
^
)
2
+
v
a
r
(
θ
^
)
\begin{aligned} MSE &= E(\hat \theta - \theta)^2\\ &= bias( \hat\theta)^2 + var(\hat\theta) \end{aligned}
MSE=E(θ^−θ)2=bias(θ^)2+var(θ^)
MSE估计包含了偏差和方差。理想的估计有较小的MSE。
![](https://i-blog.csdnimg.cn/blog_migrate/c6f0eb1e0f0b34355aea8071c8990fb9.jpeg)
5.5 贝叶斯估计
- 频率派认为
θ
\theta
θ是个固定的值,但当前未知。使用极大似然估计计算
arg max θ P ( X ∣ θ ) \arg \max_\theta P(X|\theta) argθmaxP(X∣θ) - 贝叶斯派认为参数是随机变量,有自己的分布,称为先验分布。使用最大后验估计计算。
arg max θ P ( θ ∣ X ) = arg max θ P ( X ∣ θ ) P ( θ ) P ( X ) = arg max θ P ( X ∣ θ ) P ( θ ) \arg\max_\theta P(\theta|X) = \arg\max_\theta\frac{P(X|\theta)P(\theta)}{P(X)} = \arg\max_\theta P(X|\theta)P(\theta) argθmaxP(θ∣X)=argθmaxP(X)P(X∣θ)P(θ)=argθmaxP(X∣θ)P(θ)
先验概率:根据以往经验个分析得到的概率,如全概率公式,往往是“由因求果”中的因出现。
后验概率:根据结果计算原因的概率。