hi,我是为你们的xio习操碎了心的和鲸社区男运营
我们的网站:和鲸社区 Kesci.com
我们的公众号:和鲸社区(ID:heywhale-kesci)
有干货,来!
大家好,吴恩达《深度学习》多有名多经典我就不赘述啦,此次完成的是配套测验(quiz)的翻译。因为本身是付费教程,github上翻了一下,完整的题目资源都很少,更别提翻译啦~所以就快马加鞭地给大家安排上了。
感谢神仙博主@何宽 部分翻译都是从他的文章中直接照搬的,以及慷慨解囊的@黄海广 在我全部写完之后,从兜里抠出一个早就翻好的文件
另外,由于这次题目数量比较多,知乎版本进行了删减。主要删去了算维度、认符号的题目,以及71-100的项目实践题,完整版请移步和鲸社区
170题吴恩达《深度学习》大礼包,一套更比三套强www.kesci.com参考资料:
- 何宽 - 【deplearning.ai】【吴恩达课后作业】- CSDN
- ilarum19 - coursera-deeplearning.ai-NNDeepLearning - github
- 黄海广 - github标星8464+:吴恩达深度学习课程资源 - 知乎
其他x题系列:
- 35题初探scikit-learn库,get机器学习好帮手√
- 50题matplotlib从入门到精通
- 50道练习带你玩转Pandas
- 100道练习带你玩转Numpy
- 60题PyTorch简易入门指南,做技术的弄潮儿
- 90题细品吴恩达《机器学习》,感受被刷题支配的恐惧
- 40题刷爆Keras,人生苦短我选Keras
第 26 题
假设你已经建立了一个神经网络。您决定将权重和偏差初始化为零。以下哪项陈述是正确的?(选出所有正确项)
A.第一隐藏层中的每个神经元将执行相同的计算。因此,即使在梯度下降的多次迭代之后,层中的每个神经元将执行与其他神经元相同的计算。
B.第一隐层中的每个神经元在第一次迭代中执行相同的计算。但是在梯度下降的一次迭代之后,他们将学会计算不同的东西,因为我们已经“破坏了对称性”。
C.第一个隐藏层中的每个神经元将执行相同的计算,但不同层中的神经元执行不同的计算,因此我们完成了课堂上所描述的“对称性破坏”。
D.即使在第一次迭代中,第一个隐藏层的神经元也会执行不同的计算,因此,它们的参数会以自己的方式不断演化。
第 27 题
逻辑回归的权重w应该随机初始化,而不是全部初始化为全部零,否则,逻辑回归将无法学习有用的决策边界,因为它将无法“打破对称”
A.对 B.不对
第 28 题
你已经为所有隐藏的单位建立了一个使用tanh激活的网络。使用np.random.randn(…, …)*1000
将权重初始化为相对较大的值。会发生什么?
A.没关系。只要随机初始化权重,梯度下降不受权重大小的影响。
B.这将导致tanh的输入也非常大,从而导致梯度也变大。因此,你必须将
C.这将导致tanh的输入也非常大,导致单元被“高度激活”。与权重从小值开始相比,加快了学习速度。
D.这将导致tanh的输入也非常大,从而导致梯度接近于零。因此,优化算法将变得缓慢。
26-28题 答案
26.A 127.B 28.D
第 31 题
在我们的前向传播和后向传播实现中使用的“缓存”是什么?
A.它用于在训练期间缓存成本函数的中间值。
B.我们用它将在正向传播过程中计算的变量传递到相应的反向传播步骤。它包含了反向传播计算导数的有用值。
C.它用于跟踪我们正在搜索的超参数,以加快计算速度。
D.我们用它将反向传播过程中计算的变量传递到相应的正向传播步骤。它包含用于计算正向传播的激活的有用值。
第 32 题
以下哪些是“超参数”?(选出所有正确项)
A.隐藏层规模
B.神经网络的层数
C.激活向量
D.权重矩阵
E.学习率
F.迭代次数
G.偏置向量
第 33 题
下列哪个说法是正确的?
A.神经网络的更深层通常比前面的层计算更复杂的特征
B.神经网络的前面的层通常比更深层计算更复杂的特性
第 34 题
向量化允许您在L层神经网络中计算前向传播时,不需要在层l = 1, 2, …, L间显式的使用for循环(或任何其他显式迭代循环)
A.对 B.不对
第 35 题
假设我们将
layers
的数组中,如下所示:
layer_dims = [n_x, 4, 3, 2, 1]
。 因此,第1层有4个隐藏单元,第2层有3个隐藏单元,依此类推。 您可以使用哪个for循环初始化模型参数?
A.
for(i in range(1, len(layer_dims/2))):
parameter[‘W’ + str(i)] = np.random.randn(layers[i], layers[i - 1])) * 0.01
parameter[‘b’ + str(i)] = np.random.randn(layers[i], 1) * 0.01
B.
for(i in range(1, len(layer_dims/2))):
parameter[‘W’ + str(i)] = np.random.randn(layers[i], layers[i - 1])) * 0.01
parameter[‘b’ + str(i)] = np.random.randn(layers[i-1], 1) * 0.01
C.
for(i in range(1, len(layer_dims))):
parameter[‘W’ + str(i)] = np.random.randn(layers[i-1], layers[i])) * 0.01
parameter[‘b’ + str(i)] = np.random.randn(layers[i], 1) * 0.01
D.
for(i in range(1, len(layer_dims))):
parameter[‘W’ + str(i)] = np.random.randn(layers[i], layers[i-1])) * 0.01
parameter[‘b’ + str(i)] = np.random.randn(layers[i], 1) * 0.01
第 37 题
在前向传播期间,在层
A.对 B.不对
31-37题 答案
31.B 32.ABEF 33.A 34.B 35.D 37.A
第 42 题
开发和测试集应该:
A.来自同一分布
B.来自不同分布
C.完全相同(一样的(x, y)对)
D.数据数量应该相同
第 43 题
如果你的神经网络方差很高,下列哪个尝试是可能解决问题的?
A.添加正则项
B.获取更多测试数据
C.增加每个隐藏层的神经元数量
D.用更深的神经网络
E.用更多的训练数据
第 44 题
你正在为苹果,香蕉和橘子制作分类器。 假设您的分类器在训练集上有0.5%的错误,以及开发集上有7%的错误。 以下哪项尝试是有希望改善你的分类器的分类效果的?
A.增大正则化参数
B.减小正则化参数
C.获取更多训练数据
D.用更大的神经网络
第 45 题
什么是权重衰减?
A.正则化技术(例如L2正则化)导致梯度下降在每次迭代时权重收缩
B.在训练过程中逐渐降低学习率的过程
C.如果神经网络是在噪声数据下训练的,那么神经网络的权值会逐渐损坏
D.通过对权重值设置上限来避免梯度消失的技术
第 46 题
当你增大正则化的超参数
A.权重变小(接近0)
B.重量变大(远离0)
C.2倍的
D.每次迭代,梯度下降采取更大的步距(与
第 47 题
在测试时候使用dropout:
A.不随机关闭神经元,但保留1/keep_brob因子
B.随机关闭神经元,保留1/keep_brob因子
C.随机关闭神经元,但不保留1/keep_brob因子
D.不随机关闭神经元,也不保留1/keep_brob因子
第 48 题
将参数keep_prob从(比如说)0.5增加到0.6可能会导致以下情况(选出所有正确项):
A.正则化效应被增强
B.正则化效应被减弱
C.训练集的误差会增加
D.训练集的误差会减小
第 49 题
以下哪些技术可用于减少方差(减少过拟合)?(选出所有正确项)
A.梯度消失
B.数据扩充
C.Dropout
D.梯度检查
E.Xavier初始化
F.L2正则化
G.梯度爆炸
第 50 题
为什么要对输入
A.让参数初始化更快
B.让代价函数更快地优化
C.更容易做数据可视化
D.是另一种正则化——有助减少方差
42-50题 答案
42.A 43.AE 44.AC 45.A 46.A 47.D 48.BD 49.BCF 50.B
第 52 题
关于mini-batch的说法哪个是正确的?
A.mini-batch迭代一次(计算1个mini-batch),要比批量梯度下降迭代一次快
B.用mini-batch训练完整个数据集一次,要比批量梯度下降训练完整个数据集一次快
C.在不同的mini-batch下,不需要显式地进行循环,就可以实现mini-batch梯度下降,从而使算法同时处理所有的数据(矢量化)
第 53 题
为什么最好的mini-batch的大小通常不是1也不是m,而是介于两者之间?
A.如果mini-batch的大小是1,那么在你取得进展前,你需要遍历整个训练集
B.如果mini-batch的大小是m,就会变成批量梯度下降。在你取得进展前,你需要遍历整个训练集
C.如果mini-batch的大小是1,那么你将失去mini-batch将数据矢量化带来的的好处
D.如果mini-batch的大小是m,就会变成随机梯度下降,而这样做经常会比mini-batch慢
第 54 题
如果你的模型的成本
A.如果你正在使用mini-batch梯度下降,那可能有问题;而如果你在使用批量梯度下降,那是合理的
B.如果你正在使用mini-batch梯度下降,那看上去是合理的;而如果你在使用批量梯度下降,那可能有问题
C.无论你在使用mini-batch还是批量梯度下降,看上去都是合理的
D.无论你在使用mini-batch还是批量梯度下降,都可能有问题
第 55 题
假设一月的前三天卡萨布兰卡的气温是一样的: 一月第一天:
假设您使用
A.
B.
C.
D.
第 56 题
下面哪一个不是比较好的学习率衰减方法?
A.
B.
C.
D.
第 57 题
您在伦敦温度数据集上使用指数加权平均, 使用以下公式来追踪温度:
A.减小
第 58 题
下图中的曲线是由:梯度下降,动量梯度下降(
A.(1)是梯度下降;(2)是动量梯度下降(
B.(1)是梯度下降;(2)是动量梯度下降(
C.(1)是动量梯度下降(
D.(1)是动量梯度下降(
第 59 题
假设在一个深度学习网络中,批量梯度下降花费了大量时间时来找到一组参数值,使成本函数
A.令所有权重值初始化为0
B.尝试调整学习率
C.尝试mini-batch梯度下降
D.尝试对权重进行更好的随机初始化
E.尝试使用 Adam 算法
第 60 题
关于Adam算法,下列哪一个陈述是错误的?
A.Adam结合了Rmsprop和动量的优点
B.Adam中的学习率超参数
C.我们经常使用超参数的“默认”值
D.Adam应该用于批梯度计算,而不是用于mini-batch
52-60题 答案
52.C 53.BC 54.B 55.D 56.D 57.BC 58.B 59.BCDE 60.D
第 61 题
如果在大量的超参数中搜索最佳的参数值,那么应该尝试在网格中搜索而不是使用随机值,以便更系统的搜索,而不是依靠运气,请问这句话是正确的吗?
A.对 B.不对
第 62 题
每个超参数如果设置得不好,都会对训练产生巨大的负面影响,因此所有的超参数都要调整好,请问这是正确的吗?
A.对 B.不对
第 63 题
在超参数搜索过程中,你尝试只照顾一个模型(使用熊猫策略)还是一起训练大量的模型(鱼子酱策略)在很大程度上取决于:
A.是否使用批量(batch)或小批量优化(mini-batch optimization)
B.神经网络中局部最小值(鞍点)的存在性
C.在你能力范围内,你能够拥有多大的计算能力(博主注:就是高性能电脑和低性能电脑的区别)
D.需要调整的超参数的数量
第 64 题
如果您认为
A.
r = np.random.rand()
beta = r * 0.09 + 0.9
B.
r = np.random.rand()
beta = 1 - 10 ** ( - r - 1 )
C.
r = np.random.rand()
beta = 1 - 10 ** ( - r + 1 )
D.
r = np.random.rand()
beta = r * 0.9 + 0.09
第 65 题
找到好的超参数的值是非常耗时的,所以通常情况下你应该在项目开始时做一次,并尝试找到非常好的超参数,这样你就不必再次重新调整它们。请问这正确吗?
A.对 B.不对
第 66 题
在视频中介绍的批量标准化中,如果将其应用于神经网络的第l层,您应该对谁进行标准化?
A.
B.
C.
D.
第 67 题
在标准化公式
A.为了更准确地标准化
B.为了避免除零操作
C.为了加速收敛
D.防止
第 68 题
批标准化中关于
A.对于每个层,有一个全局值
B.
C.它们确定了给定层的线性变量
D.最佳值是
E.它们可以用Adam、动量的梯度下降或RMSprop,而不仅仅是用梯度下降来学习
第 69 题
在训练了具有批标准化的神经网络之后,在用新样本评估神经网络的时候,您应该:
A.如果你在256个例子的mini-batch上实现了批标准化,那么如果你要在一个测试例子上进行评估,你应该将这个例子重复256次,这样你就可以使用和训练时大小相同的mini-batch进行预测。
B.使用最新的mini-batch的
C.跳过用
D.执行所需的标准化,使用在训练期间,通过指数加权平均值得出的
第 70 题
关于深度学习编程框架的这些陈述中,哪一个是正确的?(选出所有正确项)
A.即使一个项目目前是开源的,项目的良好管理有助于确保它即使在长期内仍然保持开放,而不是仅仅为了一个公司而关闭或修改。
B.通过编程框架,您可以使用比低级语言(如Python)更少的代码来编写深度学习算法。
C.深度学习编程框架的运行需要基于云的机器。
61-70题 答案
61.B 62.B 63.C 64.B 65.B 66.A 67.B 68.CE 69.D 70.AB
第 101 题
你认为把下面这个过滤器应用到灰度图像会怎么样?
A.会检测45度边缘
B.会检测垂直边缘
C.会检测水平边缘
D.会检测图像对比度
第 102 题
假设你的输入是一个300×300的彩色(RGB)图像,而你没有使用卷积神经网络。 如果第一个隐藏层有100个神经元,每个神经元与输入层进行全连接,那么这个隐藏层有多少个参数(包括偏置参数)?
A.9,000,001
B.9,000,100
C.27,000,001
D.27,000,100
第 103 题
假设你的输入是300×300彩色(RGB)图像,并且你使用卷积层和100个过滤器,每个过滤器都是5×5的大小,请问这个隐藏层有多少个参数(包括偏置参数)?
A.2501
B.2600
C.7500
D.7600
第 104 题
你有一个63x63x16的输入,并使用大小为7x7的32个过滤器进行卷积,使用步幅为2和无填充,请问输出是多少?
A.29x29x32
B.16x16x32
C.29x29x16
D.16x16x16
第 105 题
你有一个15x15x8的输入,并使用“pad = 2”进行填充,填充后的尺寸是多少?
A.17x17x10
B.19x19x8
C.19x19x12
D.17x17x8
第 106 题
你有一个63x63x16的输入,有32个过滤器进行卷积,每个过滤器的大小为7x7,步幅为1,你想要使用“same”的卷积方式,请问pad的值是多少?
A.1
B.2
C.3
D.7
第 107 题
你有一个32x32x16的输入,并使用步幅为2、过滤器大小为2的最大化池,请问输出是多少?
A.15x15x16
B.16x16x8
C.16x16x16
D.32x32x8
第 108 题
因为池化层不具有参数,所以它们不影响反向传播的计算。
A.对 B.不对
第 109 题
在视频中,我们谈到了“参数共享”是使用卷积网络的好处。关于参数共享的下列哪个陈述是正确的?(选出所有正确项)
A.它减少了参数的总数,从而减少过拟合。
B.它允许在整个输入值的多个位置使用特征检测器。
C.它允许为一项任务学习的参数即使对于不同的任务也可以共享(迁移学习)。
D.它允许梯度下降将许多参数设置为零,从而使得连接稀疏。
第 110 题
在课堂上,我们讨论了“稀疏连接”是使用卷积层的好处。这是什么意思?
A.正则化导致梯度下降将许多参数设置为零。
B.每个过滤器都连接到上一层的每个通道。
C.下一层中的每个激活只依赖于前一层的少量激活。
D.卷积网络中的每一层只连接到另外两层。
101-110题 答案
101.B 102.D 103.B 104.A 105.B 106.C 107.C 108.B 109.BD 110.C
第 111 题
在典型的卷积神经网络中,随着网络的深度增加,你能看到的现象是?
A.
B.
C.
D.
第 112 题
在典型的卷积神经网络中,你能看到的是?
A.多个卷积层后面跟着的是一个池化层
B.多个池化层后面跟着的是一个卷积层
C.全连接层(FC)位于最后的几层
D.全连接层(FC)位于开始的几层
第 113 题
为了构建一个非常深的网络,我们经常在卷积层使用“valid”的填充,只使用池化层来缩小激活值的宽/高度,否则的话就会使得输入迅速的变小。
A.对
B.不对
第 114 题
训练更深层的网络(例如,在网络中添加额外的层)可以使网络适应更复杂的功能,因此几乎总是会导致更低的训练错误。对于这个问题,假设是指“普通”网络
A.对 B.不对
第 115 题
下面计算残差(ResNet)块的公式中,横线上应该分别填什么?
A.分别是
B.分别是
C.分别是
D.分别是
第 116 题
关于残差网络下面哪个(些)说法是正确的?
A.使用跳越连接能够对反向传播的梯度下降有益,且能够帮你对更深的网络进行训练
B.跳跃连接计算输入的复杂的非线性函数以传递到网络中的更深层
C.有L层的残差网络一共有
D.跳跃连接能够使得网络轻松地学习残差块类的输入输出间的身份映射
第 117 题
假设你的输入的维度为64x64x16,单个1x1的卷积过滤器含有多少个参数(包括偏差)?
A.2
B.17
C.4097
D.1
第 118 题
假设你有一个维度为
A.你能够使用1x1的卷积层来减少
B.你可以使用池化层减少
C.你可以使用一个1x1的卷积层来减少
D.你可以使用池化层减少
第 119 题
关于 Inception 网络下面哪些说法是正确的
A.Inception 网络包含了各种网络的体系结构(类似于随机删除节点模式,它会在每一步中随机选择网络的结构),因此它具有随机删除节点的正则化效应。
B.Inception 块通常使用1x1的卷积来减少输入卷积的大小,然后再使用3x3和5x5的卷积。
C.一个inception 块允许网络使用1x1, 3x3, 5x5 的和卷积个池化层的组合。
D.通过叠加inception块的方式让inception网络更深,不会损害训练集的表现。
第 120 题
下面哪些是使用卷积网络的开源实现(包含模型/权值)的常见原因?
A.为一个计算机视觉任务训练的模型通常可以用来数据扩充,即使对于不同的计算机视觉任务也是如此。
B.为一个计算机视觉任务训练的参数通常对其他计算机视觉任务的预训练是有用的。
C.使用获得计算机视觉竞赛奖项的相同的技术,广泛应用于实际部署。
D.使用开源实现可以很简单的来实现复杂的卷积结构。
111-120题 答案
111.D 112.AC 113.B 114.B 115.B 116.BD 117.B 118.AB 119.BC 120.BCD
第 121 题
现在你要构建一个能够识别三个对象并定位位置的算法,这些对象分别是:行人(c=1),汽车(c=2),摩托车(c=3)。下图中的标签哪个是正确的?注:
A.y=[1, 0.3, 0.7, 0.3, 0.3, 0, 1, 0]
B.y=[1, 0.7, 0.5, 0.3, 0.3, 0, 1, 0]
C.y=[1, 0.3, 0.7, 0.5, 0.5, 0, 1, 0]
D.y=[1, 0.3, 0.7, 0.5, 0.5, 1, 0, 0]
E.y=[0, 0.2, 0.4, 0.5, 0.5, 0, 1, 0]
第 122 题
继续上一个问题,下图中y的值是多少?注:“?”是指“不关心这个值”,这意味着神经网络的损失函数不会关心神经网络对输出的结果,和上面一样,
A.y=[1, ?, ?, ?, ?, 0, 0, 0]
B.y=[0, ?, ?, ?, ?, ?, ?, ?]
C.y=[?, ?, ?, ?, ?, ?, ?, ?]
D.y=[0, ?, ?, ?, ?, 0, 0, 0]
E.y=[1, ?, ?, ?, ?, ?, ?, ?]
第 123 题
你现在任职于自动化工厂中,您的系统将看到一罐饮料沿着传送带向下移动,你要对其进行拍照,然后确定照片中是否有饮料罐,如果有的话就对其进行包装。饮料罐头是圆的,而包装盒是方的,每一罐饮料的大小是一样的,每个图像中最多只有一罐饮料,现在你有下面的方案可供选择,这里有一些训练集图像:
你的神经网络最合适的输出单位是什么?
A.逻辑单元(用于分类图像中是否有罐头)
B.逻辑单元,
C.逻辑单元,
D.逻辑单元,
第 124 题
如果你想要构建一个能够输入人脸图片,输出为N个标记的神经网络(假设图像只包含一张脸),那么你的神经网络有多少个输出节点?
A.N B.2N C.3N D.
第 125 题
在训练课程中描述的一个对象检测系统中,您需要一个训练集,其中包含许多要检测的对象的图片。但是,由于该算法可以学习自检测对象,因此不需要在训练集中提供边界框。
A.正确 B.错误
第 126 题
如你正在应用一个滑动窗口分类器(非卷积实现),增加步长不仅会提高准确性,也会降低成本。
A.正确 B.错误
第 129 题
假如你在下图中的预测框中使用非最大值抑制,其参数是放弃概率≤ 0.4的框,并决定两个框IoU的阈值为0.5,使用非最大值抑制后会保留多少个预测框?
A.3 B.4 C.5 D.6 E.7
第 130 题
假如你使用YOLO算法,使用19x19格子来检测20个分类,使用5个锚框(anchor box)。在训练的过程中,对于每个图像你需要输出卷积后的结果y作为神经网络目标值(这是最后一层),
A.19x19x(25x20)
B.19x19x(20x25)
C.19x19x(5x25)
D.19x19x(5x20)
121-130题 答案
121.A 122.B 123.B 124.B 125.B 126.B 129.C 130.C
第 131 题
面部验证只需要将新图片与1个人的面部进行比较,而面部识别则需要将新图片与K个人的面部进行比较。
A.正确 B.错误
第 132 题
在人脸验证中函数d(img1,img2)
起什么作用?
A.只需要给出一个人的图片就可以让网络认识这个人
B.为了解决一次学习的问题
C.这可以让我们使用softmax函数来学习预测一个人的身份,在这个单元中分类的数量等于数据库中的人的数量加1
D.鉴于我们拥有的照片很少,我们需要将它运用到迁移学习中
第 133 题
为了训练人脸识别系统的参数,使用包含了10万个不同的人的10万张图片的数据集进行训练是合理的。
A.正确 B.错误
第 134 题
下面哪个是三元组损失的正确定义(请把
A.
B.
C.
D.
第 135 题
在下图中的孪生卷积网络(Siamese network)结构图中
上下两个神经网络拥有不同的输入图像,但是其中的网络参数是完全相同的
A.正确 B.错误
第 136 题
你在一个拥有100种不同的分类的数据集上训练一个卷积神经网络,你想要知道是否能够找到一个对猫的图片很敏感的隐藏节点(即在能够强烈激活该节点的图像大多数都是猫的图片的节点),你更有可能在第4层找到该节点而不是在第1层更有可能找到。
A.正确 B.错误
第 137 题
神经风格转换被训练为有监督的学习任务,其中的目标是输入两个图像 (x),并训练一个能够输出一个新的合成图像(y)的网络
A.正确 B.错误
第 138 题
在一个卷积网络的深层,每个通道对应一个不同的特征检测器,风格矩阵
A.正确 B.错误
第 139 题
在神经风格转换中,在优化算法的每次迭代中更新的是什么?
A.神经网络的参数
B.生成图像G的像素值
C.正则化参数
D.内容图像C的像素值
第 140 题
你现在用拥有的是3D的数据,现在构建一个网络层,其输入的卷积是32×32×32×1632×32×32×16(此卷积有16个通道),对其使用3232个3×3×33×3×3的过滤器(无填充,步长为1)进行卷积操作,请问输出的卷积是多少?
A.30×30×30×32
B.不能操作,因为指定的维度不匹配,所以这个卷积步骤是不可能执行的
C.30×30×30×16
131-140题 答案
131.A 132.AB 133.B 134.A 135.A 136.A 137.B 138.A 139.B 140.A
第 142 题
看一下下面的这个循环神经网络:
在下面的条件中,满足上图中的网络结构的参数是:
A.
B.$T_x
C.
D.
第 143 题
这些任务中的哪一个会使用多对一的RNN体系结构?
A.语音识别(输入语音,输出文本)
B.情感分类(输入一段文字,输出0或1表示正面或者负面的情绪)
C.图像分类(输入一张图片,输出对应的标签)
D.人声性别识别(输入语音,输出说话人的性别)
第 144 题
假设你现在正在训练下面这个RNN的语言模型:
在
A.计算
B.计算
C.计算
D.计算
第 145 题
你已经完成了一个语言模型RNN的训练,并用它来对句子进行随机取样,如下图:
在每个时间步tt都在做什么?
A.(1)使用RNN输出的概率,选择该时间步的最高概率单词作为
B.(1)使用由RNN输出的概率将该时间步的所选单词进行随机采样作为
C.(1)使用由RNN输出的概率来选择该时间步的最高概率词作为
D.(1)使用RNN该时间步输出的概率对单词随机抽样的结果作为
第 146 题
你正在训练一个RNN网络,你发现你的权重与激活值都是“NaN”,下列选项中,哪一个是导致这个问题的最有可能的原因?
A.梯度消失
B.梯度爆炸
C.ReLU函数作为激活函数g(.),在计算g(z)时,z的数值过大了
D.Sigmoid函数作为激活函数g(.),在计算g(z)时,z的数值过大了
第 147 题
假设你正在训练一个LSTM网络,你有一个10,000词的词汇表,并且使用一个激活值维度为100的LSTM块,在每一个时间步中,
A.1
B.100
C.300
D.10000
第 148 题
这里有一些GRU的更新方程:
爱丽丝建议通过移除
A.爱丽丝的模型(即移除
B.爱丽丝的模型(即移除
C.贝蒂的模型(即移除
D.贝蒂的模型(即移除
第 149 题
这里有一些GRU和LSTM的方程:
从这些我们可以看到,在LSTM中的更新门和遗忘门在GRU中扮演类似___与___的角色,空白处应该填什么?
A.
B.
C.
D.
第 150 题
你有一只宠物狗,它的心情很大程度上取决于当前和过去几天的天气。你已经收集了过去365天的天气数据
A.双向RNN,因为在
B.双向RNN,因为这允许反向传播计算中有更精确的梯度。
C.单向RNN,因为
D.单向RNN,因为
141-150题 答案
142.A 143.BD 144.C 145.D 146.B 147.B 148.C 149.A 150.C
第 151 题
假设你为10000个单词学习词嵌入,为了捕获全部范围的单词的变化以及意义,那么词嵌入向量应该是10000维的。
A.正确 B.错误
第 155 题
设
A.因为这个操作是在浪费计算资源
B.因为正确的计算方式是
C.因为它没有办法处理未知的单词()
D.以上全都不对,因为直接调用
第 156 题
在学习词嵌入时,我们创建了一个预测
A.正确 B.错误
第 157 题
在word2vec算法中,你要预测
A.
B.
C.
D.
第 158 题
假设你有1000个单词词汇,并且正在学习500维的词嵌入,word2vec模型使用下面的softmax函数:
以下说法中哪一个(些)是正确的?
A.
B.
C.
D.训练之后,
第 159 题
假设你有10000个单词词汇,并且正在学习500维的词嵌入,GloVe模型最小化了这个目标:
以下说法中哪一个(些)是正确的?
A.
B.
C.
D.加权函数
第 160 题
你已经在文本数据集
A.
151-160题 答案
151.B 156.B 157.A 158.AC 159.BCD 160.A
第 161 题
想一想使用如下的编码-解码模型来进行机器翻译:
这个模型是“条件语言模型”,编码器部分(绿色显示)的意义是建模中输入句子x的概率
A.正确 B.错误
第 162 题
在集束搜索中,如果增加集束宽度
A.集束搜索将运行的更慢
B.集束搜索将使用更多的内存
C.集束搜索通常将找到更好地解决方案(比如:在最大化概率
D.集束搜索将在更少的步骤后收敛
第 163 题
在机器翻译中,如果我们在不使用句子归一化的情况下使用集束搜索,那么算法会输出过短的译文。
A.正确 B.错误
第 164 题
假设你正在构建一个能够让语音片段
在你的模型中,
那么,你会增加集束宽度
A.不会,因为
B.不会,因为
C.会的,因为
D.会的,因为
第 165 题
接着使用第4题的样本,假设你花了几周的时间来研究你的算法,现在你发现,对于绝大多数让算法出错的例子而言,
A.正确 B.错误
第 166 题
回想一下机器翻译的模型:
除此之外,还有个公式
A.对于网络中与输出
B.对于网络中与输出
C.
D.
第 167 题
网络通过学习的值
这个神经网络的输入中,我们不能将
A.正确 B.错误
第 168 题
与题151中的编码-解码模型(没有使用注意力机制)相比,我们希望有注意力机制的模型在下面的情况下有着最大的优势:
A.输入序列的长度
B.输入序列的长度
第 169 题
在CTC模型下,不使用"空白"字符(_)分割的相同字符串将会被折叠。那么在CTC模型下,以下字符串将会被折叠成什么样子?__c_oo_o_kk___b_ooooo__oo__kkk
A.cokbok
B.cookbook
C.cook book
D.coookkboooooookkk
第 170 题
在触发词检测中,
A.时间
B.第
C.是否在第
D.是否有人在第
161-170题 答案
161.B 162.ABC 163.A 164.A 165.A 166.AD 167.A 168.A 169.B 170.A