蒟蒻的大一暑期机器学习重点问题整理

最新推荐文章于 2021-09-12 15:35:40 发布

风吹且头凉37

最新推荐文章于 2021-09-12 15:35:40 发布

阅读量342

点赞数 1

分类专栏：笔记文章标签：机器学习 python

本文链接：https://blog.csdn.net/m0_51756766/article/details/120228825

版权

笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1.1. 当数据有缺失值的时候，你认为处理缺失值比较合理的方法(缺失值举例：泰坦尼克号幸存者数据中有年龄性别职业是否存活四个特征但某些样本的职业特征为空)。
回答：在有缺失值的样本数量相对于总体较小时，可以选择删除样本，如果缺失样本较多，我们则可以使用所缺失特征的中位数众数和均值极值等对缺失值进行填补，或将缺失的特征label也视为一种特征，再使用回归决策树进行预测获得缺失特征

2. 请简述随机梯度下降，批梯度下降的区别和各自的优点
回答：随机梯度下降是对单个样本的loss值进行计算后就进行梯度下降的过程，优点是迭代速度较快，而因为对单个样本进行梯度下降，有通过其他样本的影响跳出局部最小值的能力。
而批梯度下降是对一批样本计算loss均值后进行梯度下降的过程，因为每次处理的样本数量较多，因此有收敛速度较快的优点。相对的，处理一批样本时所需要的迭代次数也随之增大

3. 线性判别分析(LDA)中，我们想要最优化的两个数值是什么(聚类算法也是以这两个数据为目标进行优化)
回答：LDA的思想为画一条线，经所有样本点作垂线，而不同类的样本之间的垂足距离有着明显区别，从而实现分类效果，故我们最应该优化的数值为最小化类内样本垂足的距离，最大化类间样本垂足的距离，即优化类内距离和类间距离

4. 类别不平衡问题会带来什么影响，如何有效处理类别不平衡的问题。
回答：一般而言，如果类别不平衡比例超过4:1，那么其分类器会大大地因为数据不平衡性而无法满足分类要求，会导致基数少的样本欠拟合，基数大的样本过拟合，而常用的解决类别不平衡问题的方法有很多种，这里主要介绍三种，1.更改损失函数，使其对少数项的惩罚力度加大，增加少数项的影响权重。2.欠采样和过采样，对样本的情况分布进行调整，从而避免类别不平衡问题。3.扩大数据集，通过对样本数量少的部分进行数据扩充，从而避免类别不平衡问题

5. 什么是k折交叉验证
K折交叉验证即通过将样本分为K组，每次使用K份中的K-1份作为训练集，剩下一份作为测试集使所有样本的平均值都参与到模型调优中，有效的避免过学习以及欠学习状态的发生,最后得到的结果也比较具有说服性

6. 请写出交叉熵损失函数(CrossEntropyLoss)
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KaKWQXFM-1631353971075)(https://private.codecogs.com/gif.latex?H%28p,q%29=-%5Csum_%7Bi=1%7D%5E%7Bn%7Dp%28x_%7Bi%7D%29log%28q%28x%7B_%7Bi%7D%7D%29%29#pic_center)]
7. 我们知道信息量的多少由信息的不确定性来衡量，信息量越大，信息的不确定性越大，信息熵的值越大。信息量越少，信息的不确定性越小，信息熵的值越小。请写出信息熵的公式。注：设集合D中第k类样本所占的比例为Pk(k=1,2,3,……,m)。
在这里插入图片描述
8. 写出你知道的决策树算法
回答：ID3,C4.5，CART算法，分别以信息熵、信息增益率和基尼系数作为划分依据

9. 单变量决策树的分类边界是什么样的
单变量决策树的分类边界的每一段都与坐标轴平行，因为该分类边界具有良好的解释性，每一段的划分都直接对应了某个属性的取值

10. 决策树模型如果过拟合，可以剪枝。线性归回过拟合可以加入正则项，那么为什么加入正则项可以有效防止过拟合
来个通俗的讲法吧，过拟合说明了什么，无非是拟合函数的系数过大，故拟合函数在小区间中可能会出现较大的变化，而这就代表可能会出现导数非常大的情况，通过加入正则化项可以约束参数的范数以控制其大小，从而实现减少过拟合情况

11. 如何对决策树进行预剪枝
回答：预剪枝是要对划分前后泛化性能进行评估。对比决策树某节点生成前与生成后的泛化性能，即进行划分后，查看划分前后的准确性并进行对比，使得很多枝没有展开，从而避免了过拟合的风险。

12. 决策树需要进行归一化处理吗
回答：不需要，因为数值缩放不影响分裂点位置，对树模型的结构不造成影响。

13. 下面回归模型中的哪个步骤/假设最能影响过拟合和欠拟合之间的平衡因素： A
A. 多项式的阶数
B. 是否通过矩阵求逆或梯度下降学习权重
C.使用常数项
*回答：选择合适的多项式阶数非常重要。如果阶数过大，模型就会更加复杂，容易发生过拟合;如果阶数较小，模型就会过于简单，容易发生欠拟合。如果有对过拟合和欠拟合概念不清楚的，见下图所示：在这里插入图片描述
*

14. 关于MLE（最大似然估计），下面哪一项或几项说法是正确的
1 MLE可能不存在
2 MLE总是存在
3 如果MLE存在，可能不是唯一的
4 如果MLE存在，肯定是唯一的
回答：如果极大似然函数 L(θ) 在极大值处不连续，一阶导数不存在，则 MLE 不存在，如下图所示：在这里插入图片描述
另一种情况是 MLE 并不唯一，极大值对应两个 θ。如下图所示：
16.常见的激活函数有那些？写出其公式并画出函数曲线
回答：常见的激活函数如下：
17.画出三层神经网络的结构图。
回答：如下
18.如何避免局部最优？
回答：对局部最优的避免有三个基本方法，
一是使用随机梯度下降代替真正的梯度下降。可以这样理解，每次针对单个数据样例进行摸索前进时，本质上是在一个样例形成的误差曲面上摸索前进，而每个样例的曲面大体类似，又不尽相同，当你掉入一个坑里时，往往能被别的曲面拽出来。
二是设置冲量。人如其名，本次前进的步伐，根据上一次的步伐，适当调大，好比从高处降落的石头，会更有机率跨过一些小坑，如果坑非常大，依靠冲量的惯性是没法逃出的。
第三种方法即为不同的初始权值进行训练。假定误差曲面是个坑坑洼洼的曲面，我们尝试第一次降落到随机的起点，然后再开始摸索前进，也许会有运气好的一次，能够不落在某个小坑附近，多次尝试权重，可能会找到好的全局点

19.试阐述一个完整机器学习项目的流程
1、抽象成数学问题
2、获取数据
3、特征预处理与特征选择
4 、训练模型与调优
5 、模型诊断
6、模型融合/集成
7、上线运行

20.什么是前馈神经网络
回答：“前馈”是指整个网络中无反馈，信号从输入层向输出层单向传播，可用一个有向无环图表示
其实我们常用的网络，都是前馈神经网络，从输入到输出是一个有向图，中间不会有环或者反向传播。
当然，我们在训练前馈神经网络的时候，会用到反向传播进行参数调整。但仍不影响整个网络的有向和前馈性质。

21、22.分类/回归问题选择什么激活函数，原因是？
回答：网上搜索的相关分类类型和回归类型激活函数的对应关系（转自知乎）
在这里插入图片描述
23.池化是什么，有几类池化，分别解释各个池化的过程。
回答：池化是降维的一种方法，有三类池化方法，分别是最大池化，平均池化和随机池化。
平均池化即对邻域内特征点只求平均
最大池化即即对邻域内特征点取最大
随机池化则介于两者之间，通过对像素点按照数值大小赋予概率，再按照概率进行亚采样，在平均意义上，与平均池化近似，在局部意义上，则服从最大池化的准则。

24.参数和超参数的区别是什么？
回答：参数通常由过去的训练数据中总结得出，我们可以将模型看作假设，将参数视为对特定数据集的量身打造的假设。
模型参数的一些示例包括：神经网络中的权重，支持向量机中的支持向量，线性回归或逻辑回归中的系数。
模型超参数是模型外部的配置，其值无法从数据中估计它们通常用于帮助估计模型参数。它们通常由人工指定，他们通常可以使用启发式设置，他们经常被调整为给定的预测建模问题。
模型超参数的一些例子包括：
训练神经网络的学习速率，用于支持向量机的C和sigma超参数，K最近邻的K。

25.有几种策略缓解BP网络过拟合？分别是？
回答：三种，分别是调整法、提前停止法和交叉验证法。

26.为什么在机器学习中引入激活函数，例如在房价预测中加入激活函数
回答：激活函数是神经网络的一个重要组成部分。如果不用激活函数（即相当于激活函数为f(x)=x），在这种情况下，网络的每一层的输入都是上一层的线性输出，因此，无论该神经网络有多少层，最终的输出都是输入的线性组合，与没有隐藏层的效果相当，这种情况就是最原始的感知机。
正因为上面的原因，才需要引入非线性函数作为激活函数，这样深层神经网络才有意义，输出不再是输入的线性组合，就可以逼近任意函数。

27用于识别猫的图像是“结构化”数据的一个例子，因为它在计算机中被表示为结构化矩阵，这句话对吗？为什么？
回答：错误，猫图像识别的数据是典型的非结构化数据，常见的非结构化数据还有文本，图像，视频等。

28.评价一个模型的好坏一般用什么来评价？
回答：判定方法有1.ROC曲线应尽量偏离参考线。2.AUC曲线的面积是否大于0.5

29.梯度下降法是什么？
回答：梯度下降的基本过程就和下山的场景很类似。

首先，我们有一个可微分的函数。这个函数就代表着一座山。我们的目标就是找到这个函数的最小值，也就是山底。根据之前的场景假设，最快的下山的方式就是找到当前位置最陡峭的方向，然后沿着此方向向下走，对应到函数中，就是找到给定点的梯度，然后朝着梯度相反的方向，就能让函数值下降的最快！

因为梯度的方向就是函数变化最快的方向，所以，我们重复利用这个方法，反复求取梯度，最后就能到达局部的最小值，这就类似于我们下山的过程。而求取梯度就确定了最陡峭的方向，也就是场景中测量方向的手段。
————————————————
版权声明：本文为CSDN博主「布丁小芒果」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/weixin_43382156/article/details/105145182梯度下降的基本过程就和下山的场景很类似。

因为梯度的方向就是函数变化最快的方向，所以，我们重复利用这个方法，反复求取梯度，最后就能到达局部的最小值，这就类似于我们下山的过程。而求取梯度就确定了最陡峭的方向，也就是场景中测量方向的手段。
梯度的方向是函数在给定点上升最快的方向，那么梯度的反方向就是函数在给定点下降最快的方向，这正是我们所需要的。所以我们只要沿着梯度的方向一直走，就能走到局部的最低点！从而最小化代价函数，较为准确的拟合所需要的曲线系数原文链接.

风吹且头凉37

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
蒟蒻的大一暑期机器学习重点问题整理

1.1. 当数据有缺失值的时候，你认为处理缺失值比较合理的方法(缺失值举例：泰坦尼克号幸存者数据中有年龄性别职业是否存活四个特征但某些样本的职业特征为空)。回答：在有缺失值的样本数量相对于总体较小时，可以选择删除样本，如果缺失样本较多，我们则可以使用所缺失特征的中位数众数和均值极值等对缺失值进行填补，或将缺失的特征label也视为一种特征，再使用回归决策树进行预测获得缺失特征2. 请简述随机梯度下降，批梯度下降的区别和各自的优点回答：随机梯度下降是对单个样本的loss值进行计
复制链接

扫一扫