10.21好未来笔试

选择题

1、阅读以下文字:假设我们拥有一个已完成训练的、用来解决车辆检测问题的深度神经网络模型,训练所用的数据集由汽车和卡车的照片构成,而训练目标是检测出每种车辆的名称(车辆共有10种类型)。现在想要使用这个模型来解决另外一个问题,问题数据集中仅包含一种车(福特野马)而目标变为定位车辆在照片中的位置 ( B )

A、除去神经网络中的最后一层,冻结所有层然后重新训练
B、对神经网络中的最后几层进行微调,同时将最后一层(分类层)更改为回归层
C、使用新的数据集重新训练模型
D、所有答案均不对

一个是分类任务,一个是检测任务

2、假设你需要调整超参数来最小化代价函数(cost function),会使用下列哪项技术?( D )

A、穷举搜索
B、随机搜索
C、Bayesian优化
D、都可以

穷举搜索法,随机搜索法,贝叶斯优化都可以优化超参数,各有优劣。

所以ABC三种都可实现调整优化超参数。

3、在CNN网络中,图A经过核为3x3,步长为2的卷积层,ReLU激活函数层,BN层,以及一个步长为2,核为2 * 2的池化层后,再经过一个3 * 3 的的卷积层,步长为1,此时的感受野是 ( D )

A、10
B、11
C、12
D、13

感受野:现在的一个像素对应原来的多少个像素

倒推上一层感受野Ln-1 =( Ln -1)* Sn-1+ Kn-1 ,S 和 K分别是stride(步长)和kernel size(卷积核大小)

卷积层3x3,步长1: 1(1-1)+3=3*3;

池化层 2x2,步长2:2(3-1)+2=6*6

卷积层3x3,步长2:2(6-1)+3=13*13

4、假设我们有一个使用ReLU激活函数(ReLU activation function)的神经网络,假如我们把ReLU激活替换为线性激活,那么这个神经网络能够模拟出同或函数(XNOR function)吗?( D )

A、可以
B、不好说
C、不一定
D、不能

加入激活函数,模型具有了模拟非线性函数的作用,如果被替换成了线性,那么模型就不能进行其他非线性函数的模拟。

5、假设你有5个大小为7x7、边界值为0的卷积核,同时卷积神经网络第一层的深度为1。此时如果你向这一层传入一个维度为224x224x3的数据,那么神经网络下一层所接收到的数据维度是多少?( A ) 

A、218x218x5
B、217x217x8
C、217x217x3
D、220x220x5

(W−F+2P)/S + 1

其中W为输入,F为卷积核,P为pading值,S为步长

(224 - 7 + 2 * 0)/ 1 + 1 为218,取218

6、当在卷积神经网络中加入池化层(pooling layer)时,平移变换的不变性会被保留,是吗?( C )

A、不知道
B、看情况
C、是
D、否

池化算法比如取最大值/取平均值等, 都是输入数据旋转后结果不变, 所以多层叠加后也有这种不变性。

 7.下面哪个不是分类模型?(这里题应该有误,应为:下面哪个不是分类算法?)

A、K-means(K-均值算法)
B、KNN(K邻近算法)
C、SVM(支持向量机)
D、Naive Bayes(朴素贝叶斯)

在机器学习中,SVM(Support Vector Machine)、KNN(K-Nearest Neighbors)、K-means和Naive Bayes都是常用的分类模型。然而,K-means是一种聚类算法,而不是分类算法。

SVM(Support Vector Machine):SVM是一种二分类或多分类的线性分类器。它的工作原理是找到一个超平面,将不同类别的样本分开。这个超平面被称为支持向量机,因为它是由支持向量(即,位于超平面上的样本)定义的。

KNN(K-Nearest Neighbors):KNN是一种基于实例的学习算法,用于分类和回归。它的工作原理是,对于每个未知的样本,找到训练集中与其最近的K个样本,然后根据这些邻居的类别来预测该样本的类别。

K-means:K-means是一种聚类算法,用于将一组对象分为K个簇。它的工作原理是,首先随机选择K个中心点,然后将每个样本分配到最近的中心点的簇中,然后更新每个簇的中心点。这个过程重复,直到中心点的位置不再改变。

Naive Bayes:Naive Bayes是一种基于贝叶斯定理的分类算法。它的工作原理是,假设样本的特征是条件独立的,然后使用贝叶斯定理来计算每个类别的后验概率,并选择具有最高后验概率的类别作为预测结果。

 8.关于warm-up优化策略,下面错误的是(C)

A、减缓模型在初始阶段对mini-batch的提前过拟合
B、最早在resnet论文提出
C、学习率warm-up到最大learning rate之后就不需要decay了
D、缓解模型收敛的不稳定情况

A对,学习率预热(warm-up)是一种常用的学习率调整策略,它的主要作用是在训练开始时先使用一个较小的学习率,训练了一些epochs或者steps后,再修改为预先设置的学习率进行训练。这种策略的主要目的是减缓模型在初始阶段对mini-batch的提前过拟合现象,保持分布的平稳,避免初始时期就用大学习率致使模型学偏,后期很难拉回来。同时,它也有助于保持模型深层的稳定性。

B对,Warmup是在ResNet论文中提到的一种学习率预热的方法,它在训练开始的时候先选择使用一个较小的学习率,训练了一些epoches或者steps(比如4个epoches,10000steps),再修改为预先设置的学习来进行训练。

D对,由于刚开始训练时,模型的权重(weights)是随机初始化的,此时若选择一个较大的学习率,可能带来模型的不稳定(振荡),选择Warmup预热学习率的方式,可以使得开始训练的几个epoches或者一些steps内学习率较小,在预热的小学习率下,模型可以慢慢趋于稳定,等模型相对稳定后再选择预先设置的学习率进行训练,使得模型收敛速度变得更快,模型效果更佳。

C错,学习率预热(warm-up)和学习率衰减(decay)是两种常用的学习率调整策略。学习率预热是在训练开始时先使用一个较小的学习率,训练了一些epochs或者steps后,再修改为预先设置的学习率进行训练。学习率衰减则是在训练到一定epochs或者steps后,按照线性或者余弦函数等方式,将学习率降低至指定值。学习率预热的主要作用是在训练初期,由于模型的权重是随机初始化的,如果选择一个较大的学习率,可能会带来模型的不稳定(振荡)。通过学习率预热,可以使得开始训练的几个epoch或者一些steps内学习率较小,在预热的小学习率下,模型可以慢慢趋于稳定,等模型相对稳定后再选择预先设置的学习率进行训练,使得模型收敛速度变得更快,模型效果更佳。学习率衰减的主要作用是在训练过程中,当模型已经收敛到最优点附近时,降低学习率以避免来回震荡,使得模型能够更精确地找到全局最优点。因此,学习率预热到最大学习率之后,并不意味着不需要进行学习率衰减。实际上,学习率预热和学习率衰减通常会结合使用,以达到更好的训练效果。在训练过程中,学习率首先会进行预热,然后在训练过程中逐渐衰减,以达到最佳的训练效果。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值