10.21好未来笔试

m0_62514227

已于 2023-10-22 10:46:03 修改

阅读量262

点赞数

文章标签：人工智能

于 2023-10-21 22:21:08 首次发布

本文链接：https://blog.csdn.net/m0_62514227/article/details/133966709

版权

文章讨论了深度神经网络在车辆检测任务中的迁移应用，涉及去除/微调层、超参数优化策略，感受野计算，以及神经网络结构如ReLU替换、池化层的作用。还提及了分类模型与超参数调整中的warm-up策略和学习率衰减的重要性。

摘要由CSDN通过智能技术生成

选择题

1、阅读以下文字：假设我们拥有一个已完成训练的、用来解决车辆检测问题的深度神经网络模型，训练所用的数据集由汽车和卡车的照片构成，而训练目标是检测出每种车辆的名称（车辆共有10种类型）。现在想要使用这个模型来解决另外一个问题，问题数据集中仅包含一种车（福特野马）而目标变为定位车辆在照片中的位置（ B ）

A、除去神经网络中的最后一层，冻结所有层然后重新训练
B、对神经网络中的最后几层进行微调，同时将最后一层（分类层）更改为回归层
C、使用新的数据集重新训练模型
D、所有答案均不对

一个是分类任务，一个是检测任务

2、假设你需要调整超参数来最小化代价函数（cost function），会使用下列哪项技术？（ D ）

A、穷举搜索
B、随机搜索
C、Bayesian优化
D、都可以

穷举搜索法，随机搜索法，贝叶斯优化都可以优化超参数，各有优劣。

所以ABC三种都可实现调整优化超参数。

3、在CNN网络中，图A经过核为3x3，步长为2的卷积层，ReLU激活函数层，BN层，以及一个步长为2，核为2 * 2的池化层后，再经过一个3 * 3 的的卷积层，步长为1，此时的感受野是（ D ）

A、10
B、11
C、12
D、13

感受野：现在的一个像素对应原来的多少个像素

倒推上一层感受野Ln-1 =（ Ln -1）* Sn-1+ Kn-1 ，S 和 K分别是stride（步长）和kernel size（卷积核大小）

卷积层3x3，步长1： 1（1-1）+3=3*3；

池化层 2x2，步长2：2（3-1）+2=6*6

卷积层3x3，步长2：2（6-1）+3=13*13

4、假设我们有一个使用ReLU激活函数(ReLU activation function)的神经网络，假如我们把ReLU激活替换为线性激活，那么这个神经网络能够模拟出同或函数(XNOR function)吗？（ D ）

A、可以
B、不好说
C、不一定
D、不能

加入激活函数，模型具有了模拟非线性函数的作用，如果被替换成了线性，那么模型就不能进行其他非线性函数的模拟。

5、假设你有5个大小为7x7、边界值为0的卷积核，同时卷积神经网络第一层的深度为1。此时如果你向这一层传入一个维度为224x224x3的数据，那么神经网络下一层所接收到的数据维度是多少？（ A ）

A、218x218x5
B、217x217x8
C、217x217x3
D、220x220x5

（W−F+2P）/S + 1

其中W为输入，F为卷积核，P为pading值，S为步长

（224 - 7 + 2 * 0）/ 1 + 1 为218，取218

6、当在卷积神经网络中加入池化层(pooling layer)时，平移变换的不变性会被保留，是吗？（ C ）

A、不知道
B、看情况
C、是
D、否

池化算法比如取最大值/取平均值等, 都是输入数据旋转后结果不变, 所以多层叠加后也有这种不变性。

7.下面哪个不是分类模型？（这里题应该有误，应为：下面哪个不是分类算法？）

A、K-means（K-均值算法）
B、KNN（K邻近算法）
C、SVM（支持向量机）
D、Naive Bayes（朴素贝叶斯）

在机器学习中，SVM（Support Vector Machine）、KNN（K-Nearest Neighbors）、K-means和Naive Bayes都是常用的分类模型。然而，K-means是一种聚类算法，而不是分类算法。

SVM（Support Vector Machine）：SVM是一种二分类或多分类的线性分类器。它的工作原理是找到一个超平面，将不同类别的样本分开。这个超平面被称为支持向量机，因为它是由支持向量（即，位于超平面上的样本）定义的。

KNN（K-Nearest Neighbors）：KNN是一种基于实例的学习算法，用于分类和回归。它的工作原理是，对于每个未知的样本，找到训练集中与其最近的K个样本，然后根据这些邻居的类别来预测该样本的类别。

K-means：K-means是一种聚类算法，用于将一组对象分为K个簇。它的工作原理是，首先随机选择K个中心点，然后将每个样本分配到最近的中心点的簇中，然后更新每个簇的中心点。这个过程重复，直到中心点的位置不再改变。

Naive Bayes：Naive Bayes是一种基于贝叶斯定理的分类算法。它的工作原理是，假设样本的特征是条件独立的，然后使用贝叶斯定理来计算每个类别的后验概率，并选择具有最高后验概率的类别作为预测结果。

8.关于warm-up优化策略，下面错误的是（C）

A、减缓模型在初始阶段对mini-batch的提前过拟合
B、最早在resnet论文提出
C、学习率warm-up到最大learning rate之后就不需要decay了
D、缓解模型收敛的不稳定情况

A对，学习率预热（warm-up）是一种常用的学习率调整策略，它的主要作用是在训练开始时先使用一个较小的学习率，训练了一些epochs或者steps后，再修改为预先设置的学习率进行训练。这种策略的主要目的是减缓模型在初始阶段对mini-batch的提前过拟合现象，保持分布的平稳，避免初始时期就用大学习率致使模型学偏，后期很难拉回来。同时，它也有助于保持模型深层的稳定性。

B对，Warmup是在ResNet论文中提到的一种学习率预热的方法，它在训练开始的时候先选择使用一个较小的学习率，训练了一些epoches或者steps(比如4个epoches,10000steps),再修改为预先设置的学习来进行训练。

D对，由于刚开始训练时,模型的权重(weights)是随机初始化的，此时若选择一个较大的学习率,可能带来模型的不稳定(振荡)，选择Warmup预热学习率的方式，可以使得开始训练的几个epoches或者一些steps内学习率较小,在预热的小学习率下，模型可以慢慢趋于稳定,等模型相对稳定后再选择预先设置的学习率进行训练,使得模型收敛速度变得更快，模型效果更佳。

C错，学习率预热（warm-up）和学习率衰减（decay）是两种常用的学习率调整策略。学习率预热是在训练开始时先使用一个较小的学习率，训练了一些epochs或者steps后，再修改为预先设置的学习率进行训练。学习率衰减则是在训练到一定epochs或者steps后，按照线性或者余弦函数等方式，将学习率降低至指定值。学习率预热的主要作用是在训练初期，由于模型的权重是随机初始化的，如果选择一个较大的学习率，可能会带来模型的不稳定（振荡）。通过学习率预热，可以使得开始训练的几个epoch或者一些steps内学习率较小，在预热的小学习率下，模型可以慢慢趋于稳定，等模型相对稳定后再选择预先设置的学习率进行训练，使得模型收敛速度变得更快，模型效果更佳。学习率衰减的主要作用是在训练过程中，当模型已经收敛到最优点附近时，降低学习率以避免来回震荡，使得模型能够更精确地找到全局最优点。因此，学习率预热到最大学习率之后，并不意味着不需要进行学习率衰减。实际上，学习率预热和学习率衰减通常会结合使用，以达到更好的训练效果。在训练过程中，学习率首先会进行预热，然后在训练过程中逐渐衰减，以达到最佳的训练效果。

m0_62514227

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
10.21好未来笔试

学习率预热的主要作用是在训练初期，由于模型的权重是随机初始化的，如果选择一个较大的学习率，可能会带来模型的不稳定（振荡）。D对，由于刚开始训练时,模型的权重(weights)是随机初始化的，此时若选择一个较大的学习率,可能带来模型的不稳定(振荡)，选择Warmup预热学习率的方式，可以使得开始训练的几个epoches或者一些steps内学习率较小,在预热的小学习率下，模型可以慢慢趋于稳定,等模型相对稳定后再选择预先设置的学习率进行训练,使得模型收敛速度变得更快，模型效果更佳。7.下面哪个不是分类模型？
复制链接

扫一扫