1、 在CNN,拥有最大池总是减少参数?
A 对 B 错
解析:这并非总是如此。如果我们将池大小的最大池层设置为1,则参数将保持不变。
正解B
2、 Gated Recurrent units的出现可以帮助防止在RNN中的梯度消失问题。
A 对 B 错
解析:选项A是正确的。This is because it has implicit memory to remember past behavior.
3. 使用深度学习的情感分析是多对一的预测任务
A 对 B 错
解析:选项A是正确的。这是因为从一系列单词中,你必须预测情绪是积极的还是消极的。
4、 对于二元分类问题,您会选择以下哪种架构?
A 1 B 2 C 任何一个 D 都不用
解析:我们可以使用一个神经元作为二值分类问题的输出或两个单独的神经元。
正解C
5、 在输出层不能使用以下哪种激活函数来分类图像?
A sigmoid B Tanh C ReLU D If(x> 5,1,0)
解答:C ReLU在0到无限的范围内提供连续输出。但是在输出层中,我们需要一个有限范围的值。所以选项C是正确的。
6、 在一个简单的MLP模型中,输入层有8个神经元,隐藏层有5个神经元,输出层有1个神经元。隐藏输出层和输入隐藏层之间的权重矩阵的大小是多少?
A [1 X 5],[5 X 8] B [8×5],[1×5] C [5×8],[5×1] D [5×1],[8×5]
解析:任何层1和层2之间的权重的大小由[层1中的节点X 2层中的节点]
正解D
7、 对于MLP,输入层中的节点数为10,隐藏层为5.从输入层到隐藏层的最大连接数是
A 50 B 小于50 C 超过50 D 这是一个任意值
解析:由于MLP是完全连通的有向图,因此连接数是输入层和隐藏层中节点数的乘积。
正解A
8、 在CNN中使用1×1卷积时,下列哪一项是正确的?
A 它可以帮助降低维数 B 可以用于特征池 C 由于小的内核大小,它会减少过拟合 D 所有上述
解析:1×1卷积在CNN中被称为bottleneck structure。
正解D
9、 在下列哪些应用中,我们可以使用深度学习来解决问题?
A 蛋白质结构预测 B 化学反应的预测 C 外来粒子的检测 D 所有这些
解析:我们可以使用神经网络来逼近任何函数,因此理论上可以用它来解决任何问题。
正解D
10、 以下哪些是通用逼近器?
A Kernel SVM B Neural Networks C Boosted Decision Trees D 以上所有
正解D
11、 当在内存网络中获得某个内存空间时,通常选择读取矢量形式数据而不是标量,这里需要的哪种类型的寻址来完成?
A 基于内容的寻址 B 基于位置的寻址 C 都不行 D 都可以
正解A
12、 当训练一个神经网络来作图像识别任务时,通常会绘制一张训练集误差和交叉训练集误差图来进行调试。
在上图中,最好在哪个时间停止训练?
A D B A C C D B
解析:你最好在模型最完善之前「提前终止」,所以C点是正确的。
正解C
13、 下面哪个叙述是对的? Dropout对一个神经元随机屏蔽输入权重 Dropconnect对一个神经元随机屏蔽输入和输出权重
A 1是对的,2是错的 B 都是对的 C 1是错的,2是对的 D 都是错的
解析:
在dropout的过程中,神经元被失活,在dropconnect的过程中,失活的是神经元之间的连接。 所以dropout会使输入和输出权重都变为无效,而在dropconnect中,只有其中一种会被失活。
正解D
14.对于非连续目标在深度神经网络的优化过程中,下面哪种梯度下降方法是最好的?
A SGD B AdaGrad C l-BFGS D 拉格朗日松弛Subgradient method
解析:优化算法无法作用于非连续目标。
正解D
15、 下面哪种方法没办法直接应用于自然语言处理的任务?
A 去语法模型 B 循环神经网络 C 卷积神经网络 D 主成分分析(PCA)
正解D
16.有许多种梯度下降算法,其中两种最出名的方法是l-BFGS和SGD。l-BFGS根据二阶梯度下降而SGD是根据一阶梯度下降的。 在下述哪些场景中,会更加偏向于使用l-BFGS而不是SGD? 场景1: 数据很稀疏 场景2: 神经网络的参数数量较少
A 场景1 B 场景2 C 两种情况都是 D 都不会选择l-BFGS
解析:C, 在这两种情况下,l-BFGS的效果都是最好的
17.梯度爆炸问题是指在训练深度神经网络的时候,梯度变得过大而损失函数变为无穷。在RNN中,下面哪种方法可以较好地处理梯度爆炸问题?
A 用改良的网络结构比如LSTM和GRUs B 梯度裁剪 C Dropout D 所有方法都不行
解析:为了处理梯度爆炸问题,最好让权重的梯度更新限制在一个合适的范围。,B
18、 Dropout率和正则化有什么关系? 提示:我们定义Dropout率为保留一个神经元为激活状态的概率
A Dropout率越高,正则化程度越低
B Dropout率越高,正则化程度越高
解析:A,高dropout率意味着更多神经元是激活的,所以这亦为之正则化更少。
19、 Sigmoid是神经网络中最常用到的一种激活函数,除非当梯度太大导致激活函数被弥散,这叫作神经元饱和。
这就是为什么ReLU会被提出来,因为ReLU可以使得梯度在正向时输出值与原始值一样。
这是否意味着在神经网络中ReLU单元永远不会饱和?
A 正确的 B 错误的
解析:ReLU也可能会造成饱和,当输出为负的时候。,B
20、
请阅读以下情景: 情景1:你拥有一份阿卡迪亚市(Arcadia city)地图的数据,数据中包含市内和郊区的航拍图片。你的任务是将城市划分为工业区、农场以及山川河流等自然区域等等。 情景2:你拥有一份阿卡迪亚市(Arcadia city)地图的数据,数据中包含详细的公路网和各个地标之间的距离,而这些都是以图表的形式呈现的。你的任务是找出任意两个地标之间的最短距离。 深度学习可以在情景1中应用但无法应用在情景2中,这种说法是:
A正确的 B错误的
解析:
情景1基于欧几里得数据(Euclidean data)而情景2基于图形数据,这两种类型的数据深度学习均可处理。,B
21、 考虑以下问题: 假设我们有一个5层的神经网络,这个神经网络在使用一个4GB显存显卡时需要花费3个小时来完成训练。而在测试过程中,单个数据需要花费2秒的时间。 如果我们现在把架构变换一下,当评分是0.2和0.3时,分别在第2层和第4层添加Dropout,那么新架构的测试所用时间会变为多少?
A 少于2s B 大于2s C 仍是2s D 说不准
解析:在架构中添加Dropout这一改动仅会影响训练过程,而并不影响测试过程。C
22、 阅读以下文字: 假设我们拥有一个已完成训练的、用来解决车辆检测问题的深度神经网络模型,训练所用的数据集由汽车和卡车的照片构成,而训练目标是检测出每种车辆的名称(车辆共有10种类型)。现在想要使用这个模型来解决另外一个问题,问题数据集中仅包含一种车(福特野马)而目标变为定位车辆在照片中的位置。
A 除去神经网络中的最后一层,冻结所有层然后重新训练
B 对神经网络中的最后几层进行微调,同时将最后一层(分类层)更改为回归层
C 使用新的数据集重新训练模型
D 所有答案均不对
解析B
23、 下列哪些项所描述的相关技术是错误的?
A AdaGrad使用的是一阶差分(first order differentiation)
B L-BFGS使用的是二阶差分(second order differentiation)
C AdaGrad使用的是二阶差分
正解C
24、 假定你在神经网络中的隐藏层中使用激活函数 X。在特定神经元给定任意输入,你会得到输出「-0.0001」。X 可能是以下哪一个激活函数?
A ReLU B tanh C SIGMOID D 以上都不是
解析:答案为:B,该激活函数可能是 tanh,因为该函数的取值范围是 (-1,1)。
25、 在下图中,我们可以观察到误差出现了许多小的"涨落"。 这种情况我们应该担心吗?
A 需要,这也许意味着神经网络的学习速率存在问题
B 不需要,只要在训练集和交叉验证集上有累积的下降就可以了
C 不知道 D 不好说
解析:
选项B是正确的,为了减少这些“起伏”,可以尝试增加批尺寸(batch size)。具体来说,在曲线整体趋势为下降时, 为了减少这些“起伏”,可以尝试增加批尺寸(batch size)以缩小batch综合梯度方向摆动范围. 当整体曲线趋势为平缓时出现可观的“起伏”, 可以尝试降低学习率以进一步收敛. “起伏”不可观时应该提前终止训练以免过拟合
26、 下面那个决策边界是神经网络生成的?
A A B D C C D B E 以上都对
解析:
神经网络可以逼近方式拟合任意函数, 所以以上图都可能由神经网络通过监督学习训练得到决策边界。E
27、 下图是一个利用sigmoid函数作为激活函数的含四个隐藏层的神经网络训练的梯度下降图。这个神经网络遇到了梯度消失的问题。下面哪个叙述是正确的?
A 第一隐藏层对应D,第二隐藏层对应C,第三隐藏层对应B,第四隐藏层对应A
B 第一隐藏层对应A,第二隐藏层对应C,第三隐藏层对应B,第四隐藏层对应D
C 第一隐藏层对应A,第二隐藏层对应B,第三隐藏层对应C,第四隐藏层对应D
D 第一隐藏层对应B,第二隐藏层对应D,第三隐藏层对应C,第四隐藏层对应A
正确答案是:A
解析:
由于反向传播算法从后向前传播的过程中,学习能力降低,这就是梯度消失。换言之,梯度消失是梯度在反向传播中逐渐减为 0, 按照图标题所说,四条曲线是 4 个隐藏层的学习曲线,那么最后一层梯度最高(损失函数曲线下降明显),第一层梯度几乎为零(损失函数曲线变成平直线)。所以 D 是第一层,A 是最后一层。
28、
考虑某个具体问题时,你可能只有少量数据来解决这个问题。不过幸运的是你有一个类似问题已经预先训练好的神经网络。可以用下面哪种方法来利用这个预先训练好的网络?
A 把除了最后一层外所有的层都冻结,重新训练最后一层
B 对新数据重新训练整个模型
C 只对最后几层进行调参(fine tune)
D 对每一层模型进行评估,选择其中的少数来用
解析:
如果有个预先训练好的神经网络, 就相当于网络各参数有个很靠谱的先验代替随机初始化. 若新的少量数据来自于先前训练数据(或者先前训练数据量很好地描述了数据分布, 而新数据采样自完全相同的分布), 则冻结前面所有层而重新训练最后一层即可; 但一般情况下, 新数据分布跟先前训练集分布有所偏差, 所以先验网络不足以完全拟合新数据时, 可以冻结大部分前层网络, 只对最后几层进行训练调参(这也称之为fine tune)。C
29、 当数据过大以至于无法在RAM中同时处理时,哪种梯度下降方法更加有效?
A 随机梯度下降法(Stochastic Gradient Descent)
B 不知道
C 整批梯度下降法(Full Batch Gradient Descent)
D 都不是
正确答案是:A
解析:
梯度下降法分随机梯度下降(每次用一个样本)、小批量梯度下降法(每次用一小批样本算出总损失, 因而反向传播的梯度折中)、全批量梯度下降法则一次性使用全部样本。这三个方法, 对于全体样本的损失函数曲面来说, 梯度指向一个比一个准确. 但是在工程应用中,受到内存/磁盘IO的吞吐性能制约, 若要最小化梯度下降的实际运算时间, 需要在梯度方向准确性和数据传输性能之间取得最好的平衡. 所以, 对于数据过大以至于无法在RAM中同时处理时, RAM每次只能装一个样本, 那么只能选随机梯度下降法。
30、 神经网络模型(Neural Network)因受人类大脑的启发而得名
神经网络由许多神经元(Neuron)组成,每个神经元接受一个输入,对输入进行处理后给出一个输出,如下图所示。请问下列关于神经元的描述中,哪一项是正确的?
A 每个神经元可以有一个输入和一个输出
B 每个神经元可以有多个输入和一个输出
C 每个神经元可以有一个输入和多个输出
D 每个神经元可以有多个输入和多个输出
E 上述都正确
答案:(E) 每个神经元可以有一个或多个输入,和一个或多个输出。
31、
下图所示的网络用于训练识别字符H和T,如下所示
A
B
C
D 可能是A或B,取决于神经网络的权重设置
正确答案是:D
解析:
不知道神经网络的权重和偏差是什么,则无法判定它将会给出什么样的输出。
32、 批规范化(Batch Normalization)的好处都有啥?
A 让每一层的输入的范围都大致固定
B 它将权重的归一化平均值和标准差
C 它是一种非常有效的反向传播(BP)方法
D 这些均不是
正确答案是:A
33、 假设你需要调整超参数来最小化代价函数(cost function),会使用下列哪项技术?
A 穷举搜索
B 随机搜索
C Bayesian优化
D 都可以
正确答案是:D
34、 下列哪项关于模型能力(model capacity)的描述是正确的?(指神经网络模型能拟合复杂函数的能力)
A 隐藏层层数增加,模型能力增加
B Dropout的比例增加,模型能力增加
C 学习率增加,模型能力增加
D 都不正确
A是对的,其它选项不确定
35、 下面哪项操作能实现跟神经网络中Dropout的类似效果?
A Boosting
B Bagging
C Stacking
D Mapping
正确答案是:B
解析:
Dropout可以认为是一种极端的Bagging,每一个模型都在单独的数据上训练,同时,通过和其他模型对应参数的共享,从而实现模型参数的高度正则化。
全文内容,皆引自https://www.julyedu.com/question/index