1、梯度爆炸问题是指在训练深度神经网络的时候,梯度变得过大而损失函数变为无穷。在RNN中,下面哪种方法可以较好地处理梯度爆炸问题?
A 用改良的网络结构比如LSTM和GRUs
B 梯度裁剪
C Dropout
D 所有方法都不行
正确答案是: B
解析:为了处理梯度爆炸问题,最好让权重的梯度更新限制在一个合适的范围。
LSTM可以解决梯度消失问题,但是不适于解决梯度爆炸问题
2、有许多种梯度下降算法,其中两种最出名的方法是l-BFGS和SGD。l-BFGS根据二阶梯度下降而SGD是根据一阶梯度下降的。
在下述哪些场景中,会更加偏向于使用l-BFGS而不是SGD?
场景1: 数据很稀疏
场景2: 神经网络的参数数量较少
A 场景1
B 场景2
C 两种情况都是
D 都不会选择l-BFGS
正确答案是:C
解析:在这两种情况下,l-BFGS的效果都是最好的
3、下面哪种方法没办法直接应用于自然语言处理的任务?
A 去语法模型
B 循环神经网络
C 卷积神经网络
D 主成分分析(PCA)
正确答案是:D
4、对于非连续目标在深度神经网络的优化过程中,下面哪种梯度下降方法是最好的?
A SGD
B AdaGrad
C l-BFGS
D 拉格朗日松弛Subgradient method
正确答案是:D
解析:优化算法无法作用于非连续目标。
5、下面哪个叙述是对的?
Dropout对一个神经元随机屏蔽输入权重
Dropconnect对一个神经元随机屏蔽输入和输出权重
A 1是对的,2是错的
B 都是对的
C 1是错的,2是对的
D 都是错的
正确答案是:D
解析:在dropout的过程中,神经元被失活,在dropconnect的过程中,失活的是神经元之间的连接。 所以dropout会使输入和输出权重都变为无效,而在dropconnect中,只有其中一种会被失活。
6、当训练一个神经网络来作图像识别任务时,通常会绘制一张训练集误差和交叉训练集误差图来进行调试。
在上图中,最好在哪个时间停止训练?
A D
B A
C C
D B
正确答案是:C
解析: 你最好在模型最完善之前「提前终止」,所以C点是正确的。
7、图片修复是需要人类专家来进行修复的,这对于修复受损照片和视频非常有帮助。下图是一个图像修复的例子。
现在人们在研究如何用深度学习来解决图片修复的问题。对于这个问题,哪种损失函数适用于计算像素区域的修复?
A 负对数似然度损失函数(Negative-log Likelihood loss)
B 欧式距离损失函数(Euclidean loss)
C 两种方法皆可
D 两种方法均不可
正确答案是:C
8、反向传播算法一开始计算什么内容的梯度,之后将其反向传播?
A 各个输出的平方差之和
B 各个输入的平方差之和
C 各个权重的平方差之和
D 都不对
正确答案是:A
9、在构建一个神经网络时,batch size通常会选择2的次方,比如256和512。这是为什么呢?
A 当内存使用最优时这可以方便神经网络并行化
B 当用偶数是梯度下降优化效果最好
C 这些原因都不对
D 当不用偶数时,损失值会很奇怪
10、Xavier初始化是最为常用的神经网络权重初始化方法,下图是初始化的公式。
Xavier初始化是用来帮助信号能够在神经网络中传递得更深,下面哪些叙述是对的?
1 如果权重一开始很小,信号到达最后也会很小
2 如果权重一开始很大,信号到达最后也会很大
3 Xavier初始化是由高斯发布引出的
4 Xavier初始化可以帮助减少梯度弥散问题
A 234
B 1234
C 124
D 134
正确答案是: B
1、随着句子的长度越来越多,神经翻译机器将句意表征为固定维度向量的过程将愈加困难,为了解决这类问题,下面哪项是我们可以采用的?
A 使用递归单元代替循环单元
B 使用注意力机制(attention mechanism)
C 使用字符级别翻译(character level translation)
D 所有选项均不对
正确答案是: B
2、一个循环神经网络可以被展开成为一个完全连接的、具有无限长度的普通神经网络,这种说法是
A 正确的
B 错误的
正确答案是:A
解析:循环神经元可以被认为是一个具有无限时间长度的神经元序列。
3、Dropout是一种在深度学习环境中应用的正规化手段。它是这样运作的:在一次循环中我们先随机选择神经层中的一些单元并将其临时隐藏,然后再进行该次循环中神经网络的训练和优化过程。在下一次循环中,我们又将隐藏另外一些神经元,如此直至训练结束。 根据以上描述,Dropout技术在下列哪种神经层中将无法发挥显著优势?
A 仿射层
B 卷积层
C RNN层
D 均不对
正确答案是:C
解析:Dropout对于循环层效果并不理想,你可能需要稍微修改一下dropout技术来得到良好的结果。
4、假设你的任务是使用一首曲子的前半部分来预测乐谱的未来几个小节,比如输入的内容如下的是包含音符的一张乐谱图片: 而你需要输出描绘了接下来若干个音符的图片: 关于这类问题,哪种架构的神经网络最好?
A 神经图灵机
B 附加有循环单元的卷积神经网络
C 端到端完全连接的神经网络
D 都不可用
正确答案是: B
5、当在内存网络中获得某个内存空间时,通常选择读取矢量形式数据而不是标量,这里需要的哪种类型的寻址来完成?
A 基于内容的寻址
B 基于位置的寻址
C 都不行
D 都可以
正确答案是:A
6、一般我们建议将卷积生成对抗网络(convolutional generative adversarial nets)中生成部分的池化层替换成什么?
A 跨距卷积层(Strided convolutional layer)
B ReLU层
C 局部跨距卷积层(Fractional strided convolutional layer)
D 仿射层(Affine layer)
正确答案是:C
7、下图中的数据是线性可分的么?
A 是
B 否
正确答案是: B
解析:二维平面没有直线可以分开两类样本点,线性不可分。
8、以下哪些是通用逼近器?
A Kernel SVM
B Neural Networks
C Boosted Decision Trees
D 以上所有
正确答案是:D
9、在下列哪些应用中,我们可以使用深度学习来解决问题?
A 蛋白质结构预测
B 化学反应的预测
C 外来粒子的检测
D 所有这些
正确答案是:D
解析:我们可以使用神经网络来逼近任何函数,因此理论上可以用它来解决任何问题。
10、在CNN中使用1×1卷积时,下列哪一项是正确的?
A 它可以帮助降低维数
B 可以用于特征池
C 由于小的内核大小,它会减少过拟合
D 所有上述
正确答案是:D