《神经网络》第五章：机器学习基础笔记

最新推荐文章于 2022-05-10 16:09:58 发布

ErinLiu虎哥的铲屎员

最新推荐文章于 2022-05-10 16:09:58 发布

阅读量159

点赞数

分类专栏：《神经网络》-花书文章标签：花书

本文链接：https://blog.csdn.net/liuerin/article/details/98944894

版权

《神经网络》-花书专栏收录该内容

2 篇文章 0 订阅

订阅专栏

文章目录

5.1 学习算法

任务T
经验E
性能度量P

5.1.1 任务T

任务
机器学习任务定义为机器学习熊应该如何处理样本(example)；即对样本进行一个复杂的非线性变换从而能得到正确的结果。
样本
值从对象或事件中收集到的已经量化的特征(feature)的集合。
常见的任务

分类/输入缺失分类
$f:R^n \rightarrow \{1,2,\cdots,k\}$
输出应该是一个概率分布（经过softmax转化），选概率最大的类别作为最终类别
回归
$f:R^n \rightarrow R$
输出是连续实数
转录
将一些相对非结构化表示的数据信息，转录为离散的文本形式。
例如：OCR(光学字符识别)，ASR(语音识别)
机器翻译
seq2seq，输入是一种语言符号序列，输出是另一种语言符号序列
结构化输出
输出是向量或其他包含多个值的数据结构，输出值间内部紧密相关。
例如：语法树
异常检测
筛选出不正常或非典型的个体
合成与采样
生成一些和训练数据相似的新样本。
例如:VAE，GAN
缺失值填充
去噪
输入被损坏的样本，通过损坏样本预测干净样本
密度估计
可以解释成样本采样空间的概率密度函数（连续）或概率质量函数（离散样本）

5.1.2 性能度量P

用于评估机器学习算法能力

回归任务：MSE（均方误差）
分类任务：错误率、准确率、精度与召回率、F1等

在测试集上评估系统性能

5.1.3 经验E

无监督学习：学习数据集有用的结构性质。
试图显示或隐式的学习出概率分布 $p (x)$ 。显示的例如密度估计，隐式的例如合成或去噪。其他类型例如聚类。（PCA）
监督学习：样本中包含标签(label)或目标(target)
从x预测y，估计 $p (x ∣ y)$ 。例如回归、分类（LDA）
强化学习(reinforcement)：学习系统和训练过程有反馈。

5.2 容量、过拟合、欠拟合

欠拟合
模型不能在训练集上获得较小误差。
过拟合
训练误差和测试误差间差距太大。
容量(capacity)
模型的容量指模型拟合各种函数的能力（模型的参数的多少）。低容量导致欠拟合；高容量导致过拟合。

泛化(generalization)
机器学习和优化不同的地方：希望泛化误差/测试误差低
度量测试集样本的性能，评估机器学习的泛化误差
决定学习算法是否好的因素
- 降低训练误差
- 缩小训练误差和测试误差的差距
奥卡姆剃刀：若有多个假设与观察一致，选择最简单的
没有免费的午餐定理：不存在能够在所有可能的分类问题中性能均为最优的算法。暗示我们在特定的任务上设计性能良好的算法。
解决方案：尽可能深入了解所面对的分布，找到先验知识
正则化：修改学习算法，使其降低泛华误差，而非训误差。

5.3 超参数、验证集

超参数
超参数的值不是通过学习算法本身学出来的。例如正则化的系数 $\lambda$ 。有时一个选项必须是超参数，因为它不适合在训练集上学习。
验证集
用于挑选超参数的数据子集。通常80%的数据用于训练，20%用于验证。

交叉验证

实际训练时数据可以分为

训练集：训练模型
交叉验证集：判断学习率是否要调整，何时结束训练。一般训练数据每过一轮(one epoch )，都要在交叉验证集上看一下损失函数。（只是一个辅助训练）
测试集：判断模型性能的好坏。

5.4 估计、偏差、方差

5.4.1 点估计

点估计
以抽样得到的样本指标做为总体指标的估计。并以样本指标的实际值做总体未知参数的估计值的一种推断。
区间估计
点估计无法精确的给出总体参数的精确值，所以在点估计的基础上加减一个边际误差的值来计算区间估计。
函数估计
指输入和目标变量之间关系的估计。例如线性回归，对每个参数 $w_i$ 的估计。

5.4.2 偏差和方差

偏差
描述的是预测值(点估计)的期望和真实值之间的差距。偏差越大，越偏离真实数据
$bias(\hat \theta) = E(\hat \theta) - \theta$
无偏估计
$bias(\hat \theta) = 0$
举例：

伯努利分布 $p(x^{(i)};\theta) = \theta^{x^{(i)}}(1-\theta)^{1-x^{(i)}}$ ;
极大似然估计：
$\begin{aligned} l & = \prod \theta^{x^{(i)}}(1-\theta)^{1-x^{(i)}}\\ L & = \sum^m \Big( x^{(i)}\log \theta + (1- x^{(i)})\log(1-\theta) \Big)\\ \frac{\partial L}{\partial \theta} & = \frac{1}{\theta}\sum^m x^{(i)} - \frac{1}{1-\theta}\sum^m(1-x^{(i)}) \\ &= \frac{\sum^m x^{(i)} - m\theta}{\theta(1-\theta)}=0 \\ \theta &= \frac{1}{m}\sum^m x^{(i)} \end{aligned}$
偏差：
$\begin{aligned} bias(\hat \theta) &= E(\hat \theta) - \theta\\ &= E(\frac{1}{m}\sum^m x^{(i)}) - \theta \\ & = \frac{1}{m}\sum^m E(x^{(i)}) - \theta \\ &= \frac{1}{m}\sum^m \sum_{x^{(i)} =0|1}x^{(i)}(\theta^{x^{(i)}}(1-\theta)^{1-x^{(i)}}) - \theta\\ &= \frac{1}{m}\sum^m \theta - \theta = 0 \end{aligned}$
因此是无偏估计
高斯分布的样本方差
估计值是 $\hat \mu = \frac{1}{m}\sum x,\hat \sigma^2 = \frac{1}{m}\sum(x-\hat \mu)^2$ .方差估计的偏差为：
$\begin{aligned} bias(\hat \sigma^2) &= E(\hat \sigma^2) - \sigma^2 \\ &= E(\frac{1}{m}\sum(x^{(i)}-\hat \mu)^2) - \sigma^2 \\ & = \frac{1}{m} E(\sum(x^{(i)}-\hat \mu)^2) - \sigma^2\\ &= \frac{1}{m} E\sum[(x^{(i)}-\mu)-(\hat \mu -\mu)]^2 - \sigma^2\\ &= \frac{1}{m}\sum E(x^{(i)} -\mu)^2 -\frac{2}{m}E\sum(\hat \mu-\mu)(x^{(i)}-\mu) + \frac{m}{m}E(\hat \mu -\mu)^2 - \sigma^2 \\ \end{aligned}$
由于
$\begin{aligned} \sum(x^{(i)}-\mu) & = m\frac{1}{m}\sum(x^{(i)}-\mu) = m(\hat\mu - \mu) \\ E(\hat \mu) &= E(\frac{1}{m}\sum x^{(i)}) = \mu \\ \end{aligned}$
因此
$E\sum(\hat \mu-\mu)(x^{(i)}-\mu) =mE(\hat\mu - \mu)^2 \\$
原式变化为
$\begin{aligned} bias(\hat \sigma^2) &= \frac{1}{m}\sum E(x^{(i)} -\mu)^2 -2E(\hat \mu -\mu)^2 - E(\hat \mu -\mu)^2 - \sigma^2\\ & = \frac{1}{m}\sum E(x^{(i)} -\mu)^2 -E(\hat \mu -\mu)^2 - \sigma^2\\ \end{aligned}$
其中
$\begin{aligned} E(x^{(i)} -\mu)^2 &= \sigma^2\\ E(\hat\mu - \mu)^2& = D(\hat\mu) = D(\frac{1}{m}\sum x^{(i)}) = \frac{1}{m^2}\sum D(x^{(i)}) = \frac{\sigma^2}{m} \\ \end{aligned}$
因此
$bias(\hat \sigma^2) = \sigma^2 - \frac{\sigma^2}{m} - \sigma^2= \frac{-1}{m}\sigma^2$
得出结论 $\hat \sigma^2= \frac{1}{m}\sum(x-\hat \mu)^2$ 不是无偏估计。
真正的无偏估计应该是 $\frac{1}{m-1}\sum(x-\hat \mu)^2$

方差
描述的是预测值的变化范围，离散程度，即离期望值之间的距离。方差越大，数据的分布越分散。
$Var(\hat \theta)$

偏差和方差的trade-off

偏差：度量着偏离真实函数或参数的误差期望
方差：度量数据上任意特定采样可能导致的估计期望的偏差

均方误差MSE：
$\begin{aligned} MSE &= E(\hat \theta - \theta)^2\\ &= bias( \hat\theta)^2 + var(\hat\theta) \end{aligned}$
MSE估计包含了偏差和方差。理想的估计有较小的MSE。

5.5 贝叶斯估计

频率派认为 $\theta$ 是个固定的值，但当前未知。使用极大似然估计计算
$\arg \max_\theta P(X|\theta)$
贝叶斯派认为参数是随机变量，有自己的分布，称为先验分布。使用最大后验估计计算。
$\arg\max_\theta P(\theta|X) = \arg\max_\theta\frac{P(X|\theta)P(\theta)}{P(X)} = \arg\max_\theta P(X|\theta)P(\theta)$

先验概率：根据以往经验个分析得到的概率，如全概率公式，往往是“由因求果”中的因出现。
后验概率：根据结果计算原因的概率。

ErinLiu虎哥的铲屎员

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《神经网络》第五章：机器学习基础笔记

文章目录5.1 学习算法5.1.1 任务T5.1.2 性能度量P5.1.3 经验E5.2 容量、过拟合、欠拟合5.3 超参数、验证集5.4 估计、偏差、方差5.4.1 点估计5.4.2 偏差和方差5.5 贝叶斯估计5.1 学习算法任务T经验E性能度量P5.1.1 任务T任务机器学习任务定义为机器学习熊应该如何处理样本(example)；即对样本进行一个复杂的非线性变换从而能得到正...
复制链接

扫一扫