[note] 机器学习复习

最新推荐文章于 2024-06-13 19:02:31 发布

毕加猫OAO

最新推荐文章于 2024-06-13 19:02:31 发布

阅读量361

点赞数 4

分类专栏：机器学习文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/qq_51585942/article/details/138845137

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1.人工智能、机器学习与深度学习的关系

人工智能的目的是制造像人一样的智能机器或智能系统，其中的一种方式是机器学习，机器学习是一种利用已有的经验自我改进的方法，而深度学习是特指一类使用深度神经网络进行机器学习的方法。

2.机器学习的三个步骤

根据问题选择模型
寻找合适的损失函数（目标函数）评估模型
选择优化算法使用数据训练模型

3.解释过拟合与欠拟合

过拟合：模型对于训练数据拟合呈过当，评估指标上表现为模型在训练集上的表现非常好，但在测试集和新数据上的表现较差。可能的原因是模型过于复杂或者迭代次数过多，把噪声数据的特征也学习到模型中，导致模型泛化能力下降。

欠拟合指的是模型没有很好地捕捉到数据的特征，不能够很好地拟合数据，评估指标上表现为在训练和预测时表现都不好的情况。可能的原因包括训练集数据不足，训练次数不足，选择的特征不恰当。

4. 解释方差和偏差的概念

偏差指的是由所有采样得到的大小为m的训练数据集训练出的所有模型的输出的平均值和真实模型输出之间的偏差。偏差通常是由于我们对学习算法做了错误的假设所导致的，比如真实模型是某个二次函数，但我们假设模型是一次函数。由偏差带来的误差通常在训练误差上就能体现出来。表现为欠拟合
方差指的是由所有采样得到的大小为m的训练数据集训练出的所有模型的输出的方差。方差通常是由于模型的复杂度相对于训练样本数m过高导致的，比如一共有100个训练样本，而我们假设模型是阶数不大于200的多项式函数。由方差带来的误差通常体现在测试误差相对于训练误差的增量上。表现为过拟合

bias：偏差；variance：方差 -> 实际上对应着物理实验中系统误差和随机误差的概念

5. 正则化的概念和目的

概念：向损失函数中加入描述模型复杂程度的正则项，正则项通常包括对光滑度及向量空间内范数上界的限制。
目的：1. 获得比较平滑的function，由于输出对输入是不敏感的，测试的时候，一些噪声对平滑的 function的影响就会比较小，因而给我们一个比较好的结果。 2.控制曲线的参数和形状，使之不会出现过拟合的现象。平滑：输入有变化的时候，输出对输入的变化是比较不敏感的。

6.简述几种降低过拟合和欠拟合风险的方法

降低过拟合风险的方法
- 增加训练数据，直接增加原始数据或者进行数据扩展，如图像分类中对图像进行平移、旋转、缩放等，更进一步可以使用生成对抗网络。
- 降低模型复杂度，避免拟合过多的采样噪声。
- 正则化，为模型参数加上一定的正则约束
- 集成学习，将多模型集成在以及降低单一模型过拟合风险
降低欠拟合风险的方法
- 添加新特征。当特征不足或者现有特征与样本标签的相关性不强时，模型容易出现欠拟合。通过挖掘“上下文特征”“ID类特征”“组合特征”等新的特征，往往能够取得更好的效果。在深度学习潮流中，有很多模型可以帮助完成特征工程，如因子分解机、梯度提升决策树、Deep-crossing等都可以成为丰富特征的方法。
- 增加模型复杂度，简单模型的学习能力较差，复杂模型具有更好的拟合能力
- 减小正则化系数。正则化是用来防止过拟合的，但当模型出现欠拟合现象时，则需要有针对性地减小正则化系数。

7.简述梯度下降的过程

初始化梯度集合，根据优化算法迭代更新梯度，寻找使得损失函数最小的梯度集合。

18.冲量(momentum)方法做了什么以及解决了什么问题

冲量法为参数更新中添加惯性，使得梯度下降的方向不仅依赖于当前的梯度值，还取决于之前的梯度，并通过指数加权平均的方法逐渐遗忘历史数据。
解决训练卡在局部最小值/鞍点/plateau（critical point）的问题，使得收敛速度更快，收敛曲线也更稳定。

橙色为原始梯度，绿色为修正后的梯度，横向变得很快，纵向振幅减少。

类比于下山越来越快，左右冲量逐渐抵消。

8. Adagrad方法解决了什么问题，如何做的？

解决了学习率自适应变化的问题，对任一维度的梯度，随着该维度上梯度变化的积累，学习率逐渐降低。
$W_t = W_{t-1} - \frac{\lambda }{\sqrt{S_t}+\sigma}*\Delta W_t$
$S_t=S_{t-1}+\Delta W_t^2$

对学习率进行修正，历史修改越多S越大，则学习率越低。adagrad在稀疏数据上效果很好，稀疏数据指数据点之间不同维度的差异大于相同维度上的差异，特征越多的数据集越容易出现稀疏数据。

9.随机梯度下降解决了什么问题，如何做的？

解决梯度下降问题中计算次数太多的问题（需要对数据集的结果取均值），每次选取一个数据点对模型参数进行更新。
$V_t=\beta*V_{t-1} +(1-\beta)*\Delta W_{t}$
$W_t = W_{t-1}-\lambda V_t$

实际应用中随机梯度下降实际是批量随机梯度下降，SGD是批大小为1的特例，batch取值太大时容易陷入局部极值
随机梯度下降法对于凸问题的误差是根号K分之一，对于强凸问题的误差为K分之一

补充：adam

ada=adagrad+冲量法
梯度变化的积累计算时采用指数加权平均，遗忘历史数据。

10. 简述机器学习任务中，回归和分类任务的区别

输出不同 回归输出类型是连续数据，回归问题输出的是物体的值，输出的值是定量的。分类输出类型是离散数据，输出的是物体所属的类别，输出的值是定性的。
目的不同 分类的目的是为了寻找决策边界，即分类算法得到是一个决策面，用于对数据集中的数据进行分类。回归的目的是为了寻找最优拟合，通过回归算法得到是一个最优拟合线，这个线条可以最好的接近数据集中的各个点。
评价方式不同，分类使用精度、混淆矩阵等，回归问题使用均方误差等。

在一定条件下，两者可以进行转换。

11.分类和回归任务的模型输出区别

分类任务给出的是定性输出，是一个离散值。
回归任务给出的是定量输出，是一个连续值。

12.简述判别模型和生成模型各自的做法以及两种方法的区别

判别模型直接对后验概率P(c|x)进行建模，生成模型先对联合分布建模再获取模型之上生成的后验概率P(c|x)

判别模型根据数据集使用梯度下降和交叉熵函数训练出模型参数
生成模型首先对样本分布进行假设，利用最大似然估计法计算最有的高维分布参数，进而求出模型参数

判别模型当训练数据量充足时，判别模型的准确率更高。
生成模型需要更少的数据，对噪音的抵抗能力更强；

判别模型：决策树 BP神经网络 SVM
生成模型：贝叶斯分类器

13.逻辑斯蒂回归中，若使用平方误差(square error)作为损失函数的表示，可行吗？

不可行。如果是cross entropy的话，距离目标越远，梯度就越大，参数更新的时候变化量就越大，迈出去的步伐也就越大。平方误差计算得到的梯度即使距离目标远的时候，也是非常小的，参数更新的速度非常慢的。实际操作的时候，当梯度接近于0的时候，其实就很有可能会停下来，因此使用square error很有可能在一开始的时候就卡住不动了，而且这里也不能随意地增大 learning rate，因为在做gradient descent的时候，gradient接近于0，有可能离target很近也有可能很远，因此不知道learning rate应该设大还是设小。综上，尽管square error可以使用，但是会出现update十分缓慢的现象，而使用cross entropy可以让训练更快。

交叉熵更新梯度
Pasted image 20230211191330.png
平方差更新梯度
Pasted image 20230211191644.png

14.简述深度学习训练时，反向传播都做了什么

反向传播根据链式法则快速计算出各个参数的偏导数进行梯度更新。

15.简述CNN的卷积层和池化层，各自的实现了什么特性，以及做了什么

卷积层实现了参数共享、稀疏连接的特性。利用卷积核与上层运算建立连接。
池化层实现下采样，降低特征的维度。对一定的区域进行求均值或保留极值等操作。

16.CNN中，卷积操作的本质特性包括稀疏交互和参数共享，具体解释这两种特性及其作用

参数共享是指在同一个模型的不同模块中使用相同的参数，它是卷积运算的固有属性。全连接网络中，计算每层的输出时，权值参数矩阵中的每个元素只作用于某个输入元素一次；而在卷积神经网络中，卷积核中的每一个元素将作用于每一次局部输入的特定位置上。根据参数共享的思想，我们只需要学习一组参数集合，而不需要针对每个位置的每个参数都进行优化，从而大大降低了模型的存储需求。参数共享的物理意义是使得卷积层具有平移等变性。

系数交互：在卷积神经网络中，卷积核尺度远小于输入的维度，这样每个输出神经元仅与前一层特定局部区域内的神经元存在连接权重（即产生交互），我们称这种特性为稀疏交互
稀疏交互的物理意义是，通常图像、文本、语音等现实世界中的数据都具有局部的特征结构，我们 可以先学习局部的特征，再将局部的特征组合起来形成更复杂和抽象的特征。

17.梯度消失产生的原因以及如何解决

原因：对于靠近input层的参数，在通过Sigmoid函数时会被压缩到一个更小的范围。 $\Delta W$ 的影响随着层数加深而衰减，导致 $\Delta W$ 对Loss的影响减小。因此，靠近input的对Loss的梯度远小于靠近 output的的梯度。因此，靠近input层的参数更新较慢，靠近output层的参数更新较快。当靠近input 层的参数还是随机的时候，靠近output层的参数已经收敛了。这样，靠近input层的参数没有得到有效的训练。

解决方法：前馈神经网络中使用ReLU激活函数，取得更快的收敛速度和更好的收敛结果。

长短时记忆模型及其变种门控循环单元（Gated recurrent unit，GRU）等模型通过加入门控机制，很大程度上弥补了梯度消失所带来的损失

深度残差网络是对前馈神经网络的改进，通过残差学习的方式缓解了梯度消失的现象，从而使得我们能够学习到更深层的网络表示；

ReLU就是线性整流单元，是神经网络中常用的激活函数。如max(0,wx+b)

当采用ReLU作为循环神经网络中隐含层的激活函数时，只有当W 的取值在单位矩阵附近时才能取得比较好的效果，因此需要将W初始化为单位矩阵。实验证明，初始化W为单位矩阵并使用ReLU激活函数在一些应用中取得了与长短期记忆模型相似的结果，并且学习速度比长短期记忆模型更快，是一个值得尝试的小技巧[25]

19.dropout方法做了什么以及解决了什么问题

训练阶段中对于神经元的激活值由p的概率丢弃不使用；测试阶段中不对数据丢弃，每个神经元的权重乘以（1-p）

解决了减弱全体神经元之间的联合适应性，减少过拟合的风险，增强泛化能力的问题。

本质上将N神经元的网络拓展成了，2^N个模型的集合，这些集合共享部分权值和相同的网络层数，而模型的参数数目不变，大大简化运算，每次训练都挑选不同的神经元共同优化。

20.L1&L2 正则化

正则化是指为损失函数添加正则项进行修正，正则项包含了光滑度及向量空间内范数上界的限制，以得到一个更光滑的模型。

L1正则化

$||\theta||_1 = |w_1|+|w_2|+...\\L'(\theta) = L(\theta)+\lambda||\theta||_1\\w^{t+1}=w^t-\eta\frac{\phi L'}{\phi w}=w^t-\eta\frac{\phi L}{\phi w}-\eta\lambda \Sigma w^t$

L2正则化

$||\theta||_2 = (w_1)^2+(w_2)^2+...\\L'(\theta) = L(\theta)+\frac{1}{2}\lambda||\theta||_2\\w^{t+1}=w^t-\eta\frac{\phi L'}{\phi w}=(1-\eta)w^t-\eta\frac{\phi L}{\phi w}$

作用 :

L1正则常被用来进行特征选择，主要原因在于L1正则化会使得较多的参数为0，从而产生稀疏矩阵，我们可以将0对应的特征遗弃，进而用来选择特征。一定程度上L1正则也可以防止模型过拟合。
L2正则主要用来防止模型过拟合，直观上理解就是L2正则化是对于大数值的权重向量进行严厉惩罚。鼓励参数是较小值，如果小于1，那么会更小。