吴恩达深度学习代码_170题吴恩达《深度学习》大礼包,一套更比三套强

28f1d021174d46d5870e0621dce9a009.png
hi,我是为你们的xio习操碎了心的和鲸社区男运营
我们的网站:和鲸社区 Kesci.com
我们的公众号:和鲸社区(ID:heywhale-kesci)
有干货,来!

大家好,吴恩达《深度学习》多有名多经典我就不赘述啦,此次完成的是配套测验(quiz)的翻译。因为本身是付费教程,github上翻了一下,完整的题目资源都很少,更别提翻译啦~所以就快马加鞭地给大家安排上了。

感谢神仙博主@何宽 部分翻译都是从他的文章中直接照搬的,以及慷慨解囊的@黄海广 在我全部写完之后,从兜里抠出一个早就翻好的文件

另外,由于这次题目数量比较多,知乎版本进行了删减。主要删去了算维度、认符号的题目,以及71-100的项目实践题,完整版请移步和鲸社区

170题吴恩达《深度学习》大礼包,一套更比三套强​www.kesci.com

参考资料:

  • 何宽 - 【deplearning.ai】【吴恩达课后作业】- CSDN
  • ilarum19 - coursera-deeplearning.ai-NNDeepLearning - github
  • 黄海广 - github标星8464+:吴恩达深度学习课程资源 - 知乎

其他x题系列:

  • 35题初探scikit-learn库,get机器学习好帮手√
  • 50题matplotlib从入门到精通
  • 50道练习带你玩转Pandas
  • 100道练习带你玩转Numpy
  • 60题PyTorch简易入门指南,做技术的弄潮儿
  • 90题细品吴恩达《机器学习》,感受被刷题支配的恐惧
  • 40题刷爆Keras,人生苦短我选Keras

第 26 题

假设你已经建立了一个神经网络。您决定将权重和偏差初始化为零。以下哪项陈述是正确的?(选出所有正确项)

A.第一隐藏层中的每个神经元将执行相同的计算。因此,即使在梯度下降的多次迭代之后,层中的每个神经元将执行与其他神经元相同的计算。

B.第一隐层中的每个神经元在第一次迭代中执行相同的计算。但是在梯度下降的一次迭代之后,他们将学会计算不同的东西,因为我们已经“破坏了对称性”。

C.第一个隐藏层中的每个神经元将执行相同的计算,但不同层中的神经元执行不同的计算,因此我们完成了课堂上所描述的“对称性破坏”。

D.即使在第一次迭代中,第一个隐藏层的神经元也会执行不同的计算,因此,它们的参数会以自己的方式不断演化。

第 27 题

逻辑回归的权重w应该随机初始化,而不是全部初始化为全部零,否则,逻辑回归将无法学习有用的决策边界,因为它将无法“打破对称”

A.对 B.不对

第 28 题

你已经为所有隐藏的单位建立了一个使用tanh激活的网络。使用np.random.randn(…, …)*1000将权重初始化为相对较大的值。会发生什么?

A.没关系。只要随机初始化权重,梯度下降不受权重大小的影响。

B.这将导致tanh的输入也非常大,从而导致梯度也变大。因此,你必须将

设置得非常小,以防止发散;这将减慢学习速度。

C.这将导致tanh的输入也非常大,导致单元被“高度激活”。与权重从小值开始相比,加快了学习速度。

D.这将导致tanh的输入也非常大,从而导致梯度接近于零。因此,优化算法将变得缓慢。

26-28题 答案

26.A 127.B 28.D

第 31 题

在我们的前向传播和后向传播实现中使用的“缓存”是什么?

A.它用于在训练期间缓存成本函数的中间值。

B.我们用它将在正向传播过程中计算的变量传递到相应的反向传播步骤。它包含了反向传播计算导数的有用值。

C.它用于跟踪我们正在搜索的超参数,以加快计算速度。

D.我们用它将反向传播过程中计算的变量传递到相应的正向传播步骤。它包含用于计算正向传播的激活的有用值。

第 32 题

以下哪些是“超参数”?(选出所有正确项)

A.隐藏层规模

B.神经网络的层数

C.激活向量

D.权重矩阵

E.学习率

F.迭代次数

G.偏置向量

第 33 题

下列哪个说法是正确的?

A.神经网络的更深层通常比前面的层计算更复杂的特征

B.神经网络的前面的层通常比更深层计算更复杂的特性

第 34 题

向量化允许您在L层神经网络中计算前向传播时,不需要在层l = 1, 2, …, L间显式的使用for循环(或任何其他显式迭代循环)

A.对 B.不对

第 35 题

假设我们将

的值存储在名为
layers的数组中,如下所示: layer_dims = [n_x, 4, 3, 2, 1]。 因此,第1层有4个隐藏单元,第2层有3个隐藏单元,依此类推。 您可以使用哪个for循环初始化模型参数?

A.

for(i in range(1, len(layer_dims/2))):
    parameter[‘W’ + str(i)] = np.random.randn(layers[i], layers[i - 1])) * 0.01
    parameter[‘b’ + str(i)] = np.random.randn(layers[i], 1) * 0.01

B.

for(i in range(1, len(layer_dims/2))):
    parameter[‘W’ + str(i)] = np.random.randn(layers[i], layers[i - 1])) * 0.01
    parameter[‘b’ + str(i)] = np.random.randn(layers[i-1], 1) * 0.01

C.

for(i in range(1, len(layer_dims))):
    parameter[‘W’ + str(i)] = np.random.randn(layers[i-1], layers[i])) * 0.01
    parameter[‘b’ + str(i)] = np.random.randn(layers[i], 1) * 0.01

D.

for(i in range(1, len(layer_dims))):
    parameter[‘W’ + str(i)] = np.random.randn(layers[i], layers[i-1])) * 0.01
    parameter[‘b’ + str(i)] = np.random.randn(layers[i], 1) * 0.01

第 37 题

在前向传播期间,在层

的前向传播函数中,您需要知道层
中的激活函数(Sigmoid,tanh,ReLU等)是什么。在反向传播期间,相应的反向传播函数也需要知道第
层的激活函数是什么,因为梯度是根据它来计算的

A.对 B.不对

31-37题 答案

31.B 32.ABEF 33.A 34.B 35.D 37.A

第 42 题

开发和测试集应该:

A.来自同一分布

B.来自不同分布

C.完全相同(一样的(x, y)对)

D.数据数量应该相同

第 43 题

如果你的神经网络方差很高,下列哪个尝试是可能解决问题的?

A.添加正则项

B.获取更多测试数据

C.增加每个隐藏层的神经元数量

D.用更深的神经网络

E.用更多的训练数据

第 44 题

你正在为苹果,香蕉和橘子制作分类器。 假设您的分类器在训练集上有0.5%的错误,以及开发集上有7%的错误。 以下哪项尝试是有希望改善你的分类器的分类效果的?

A.增大正则化参数

B.减小正则化参数

C.获取更多训练数据

D.用更大的神经网络

第 45 题

什么是权重衰减?

A.正则化技术(例如L2正则化)导致梯度下降在每次迭代时权重收缩

B.在训练过程中逐渐降低学习率的过程

C.如果神经网络是在噪声数据下训练的,那么神经网络的权值会逐渐损坏

D.通过对权重值设置上限来避免梯度消失的技术

第 46 题

当你增大正则化的超参数

时会发生什么?

A.权重变小(接近0)

B.重量变大(远离0)

C.2倍的

导致2倍的权重

D.每次迭代,梯度下降采取更大的步距(与

成正比)

第 47 题

在测试时候使用dropout:

A.不随机关闭神经元,但保留1/keep_brob因子

B.随机关闭神经元,保留1/keep_brob因子

C.随机关闭神经元,但不保留1/keep_brob因子

D.不随机关闭神经元,也不保留1/keep_brob因子

第 48 题

将参数keep_prob从(比如说)0.5增加到0.6可能会导致以下情况(选出所有正确项):

A.正则化效应被增强

B.正则化效应被减弱

C.训练集的误差会增加

D.训练集的误差会减小

第 49 题

以下哪些技术可用于减少方差(减少过拟合)?(选出所有正确项)

A.梯度消失

B.数据扩充

C.Dropout

D.梯度检查

E.Xavier初始化

F.L2正则化

G.梯度爆炸

第 50 题

为什么要对输入

进行正则化?

A.让参数初始化更快

B.让代价函数更快地优化

C.更容易做数据可视化

D.是另一种正则化——有助减少方差

42-50题 答案

42.A 43.AE 44.AC 45.A 46.A 47.D 48.BD 49.BCF 50.B

第 52 题

关于mini-batch的说法哪个是正确的?

A.mini-batch迭代一次(计算1个mini-batch),要比批量梯度下降迭代一次快

B.用mini-batch训练完整个数据集一次,要比批量梯度下降训练完整个数据集一次快

C.在不同的mini-batch下,不需要显式地进行循环,就可以实现mini-batch梯度下降,从而使算法同时处理所有的数据(矢量化)

第 53 题

为什么最好的mini-batch的大小通常不是1也不是m,而是介于两者之间?

A.如果mini-batch的大小是1,那么在你取得进展前,你需要遍历整个训练集

B.如果mini-batch的大小是m,就会变成批量梯度下降。在你取得进展前,你需要遍历整个训练集

C.如果mini-batch的大小是1,那么你将失去mini-batch将数据矢量化带来的的好处

D.如果mini-batch的大小是m,就会变成随机梯度下降,而这样做经常会比mini-batch慢

第 54 题

如果你的模型的成本

随着迭代次数的增加,绘制出来的图如下,那么:

1de58ccaf225936f1c77ee01a6a335d5.png

A.如果你正在使用mini-batch梯度下降,那可能有问题;而如果你在使用批量梯度下降,那是合理的

B.如果你正在使用mini-batch梯度下降,那看上去是合理的;而如果你在使用批量梯度下降,那可能有问题

C.无论你在使用mini-batch还是批量梯度下降,看上去都是合理的

D.无论你在使用mini-batch还是批量梯度下降,都可能有问题

第 55 题

假设一月的前三天卡萨布兰卡的气温是一样的: 一月第一天:

一月第二天:

假设您使用

的指数加权平均来跟踪温度:
。如果
是在没有偏差修正的情况下计算第2天后的值,并且
是您使用偏差修正计算的值。 这些下面的值是正确的是?

A.

B.

C.

D.

第 56 题

下面哪一个不是比较好的学习率衰减方法?

A.

B.

C.

D.

第 57 题

您在伦敦温度数据集上使用指数加权平均, 使用以下公式来追踪温度:

。下图中红线使用的是
来计算的。当你改变
时,你的红色曲线会怎样变化?(选出所有正确项)

a5080f88e8427fbba26fcae95ca3f164.png

A.减小

,红色线会略微右移 B.增加
,红色线会略微右移 C.减小
,红线会更加震荡 D.增加
,红线会更加震荡

第 58 题

下图中的曲线是由:梯度下降,动量梯度下降(

)和动量梯度下降(
)。哪条曲线对应哪种算法?

v2-9e3af2538725fc6c621b26ee52f51b54_b.jpg

A.(1)是梯度下降;(2)是动量梯度下降(

);(3)是动量梯度下降(

B.(1)是梯度下降;(2)是动量梯度下降(

);(3)是动量梯度下降(

C.(1)是动量梯度下降(

);(2)是动量梯度下降(
);(3)是梯度下降

D.(1)是动量梯度下降(

);(2)是梯度下降;(3)是动量梯度下降(

第 59 题

假设在一个深度学习网络中,批量梯度下降花费了大量时间时来找到一组参数值,使成本函数

小。以下哪些方法可以帮助找到
值较小的参数值?

A.令所有权重值初始化为0

B.尝试调整学习率

C.尝试mini-batch梯度下降

D.尝试对权重进行更好的随机初始化

E.尝试使用 Adam 算法

第 60 题

关于Adam算法,下列哪一个陈述是错误的?

A.Adam结合了Rmsprop和动量的优点

B.Adam中的学习率超参数

通常需要调整

C.我们经常使用超参数的“默认”值

D.Adam应该用于批梯度计算,而不是用于mini-batch

52-60题 答案

52.C 53.BC 54.B 55.D 56.D 57.BC 58.B 59.BCDE 60.D

第 61 题

如果在大量的超参数中搜索最佳的参数值,那么应该尝试在网格中搜索而不是使用随机值,以便更系统的搜索,而不是依靠运气,请问这句话是正确的吗?

A.对 B.不对

第 62 题

每个超参数如果设置得不好,都会对训练产生巨大的负面影响,因此所有的超参数都要调整好,请问这是正确的吗?

A.对 B.不对

第 63 题

在超参数搜索过程中,你尝试只照顾一个模型(使用熊猫策略)还是一起训练大量的模型(鱼子酱策略)在很大程度上取决于:

A.是否使用批量(batch)或小批量优化(mini-batch optimization)

B.神经网络中局部最小值(鞍点)的存在性

C.在你能力范围内,你能够拥有多大的计算能力(博主注:就是高性能电脑和低性能电脑的区别)

D.需要调整的超参数的数量

第 64 题

如果您认为

(动量超参数)介于0.9和0.99之间,那么推荐采用以下哪一种方法来对
值进行取样?

A.

r = np.random.rand()
beta = r * 0.09 + 0.9

B.

r = np.random.rand()
beta = 1 - 10 ** ( - r - 1 )

C.

r = np.random.rand()
beta = 1 - 10 ** ( - r + 1 )

D.

r = np.random.rand()
beta = r * 0.9 + 0.09

第 65 题

找到好的超参数的值是非常耗时的,所以通常情况下你应该在项目开始时做一次,并尝试找到非常好的超参数,这样你就不必再次重新调整它们。请问这正确吗?

A.对 B.不对

第 66 题

在视频中介绍的批量标准化中,如果将其应用于神经网络的第l层,您应该对谁进行标准化?

A.

B.

C.

D.

第 67 题

在标准化公式

,为什么要使用epsilon(ϵ)?

A.为了更准确地标准化

B.为了避免除零操作

C.为了加速收敛

D.防止

太小

第 68 题

批标准化中关于

的以下哪些陈述是正确的?

A.对于每个层,有一个全局值

和一个全局值
,适用于于该层中的所有隐藏单元。

B.

是算法的超参数,我们通过随机采样进行调整

C.它们确定了给定层的线性变量

的均值和方差

D.最佳值是

E.它们可以用Adam、动量的梯度下降或RMSprop,而不仅仅是用梯度下降来学习

第 69 题

在训练了具有批标准化的神经网络之后,在用新样本评估神经网络的时候,您应该:

A.如果你在256个例子的mini-batch上实现了批标准化,那么如果你要在一个测试例子上进行评估,你应该将这个例子重复256次,这样你就可以使用和训练时大小相同的mini-batch进行预测。

B.使用最新的mini-batch的

值来执行所需的标准化

C.跳过用

值标准化的步骤,因为一个例子不需要标准化

D.执行所需的标准化,使用在训练期间,通过指数加权平均值得出的

第 70 题

关于深度学习编程框架的这些陈述中,哪一个是正确的?(选出所有正确项)

A.即使一个项目目前是开源的,项目的良好管理有助于确保它即使在长期内仍然保持开放,而不是仅仅为了一个公司而关闭或修改。

B.通过编程框架,您可以使用比低级语言(如Python)更少的代码来编写深度学习算法。

C.深度学习编程框架的运行需要基于云的机器。

61-70题 答案

61.B 62.B 63.C 64.B 65.B 66.A 67.B 68.CE 69.D 70.AB

第 101 题

你认为把下面这个过滤器应用到灰度图像会怎么样?

A.会检测45度边缘

B.会检测垂直边缘

C.会检测水平边缘

D.会检测图像对比度

第 102 题

假设你的输入是一个300×300的彩色(RGB)图像,而你没有使用卷积神经网络。 如果第一个隐藏层有100个神经元,每个神经元与输入层进行全连接,那么这个隐藏层有多少个参数(包括偏置参数)?

A.9,000,001

B.9,000,100

C.27,000,001

D.27,000,100

第 103 题

假设你的输入是300×300彩色(RGB)图像,并且你使用卷积层和100个过滤器,每个过滤器都是5×5的大小,请问这个隐藏层有多少个参数(包括偏置参数)?

A.2501

B.2600

C.7500

D.7600

第 104 题

你有一个63x63x16的输入,并使用大小为7x7的32个过滤器进行卷积,使用步幅为2和无填充,请问输出是多少?

A.29x29x32

B.16x16x32

C.29x29x16

D.16x16x16

第 105 题

你有一个15x15x8的输入,并使用“pad = 2”进行填充,填充后的尺寸是多少?

A.17x17x10

B.19x19x8

C.19x19x12

D.17x17x8

第 106 题

你有一个63x63x16的输入,有32个过滤器进行卷积,每个过滤器的大小为7x7,步幅为1,你想要使用“same”的卷积方式,请问pad的值是多少?

A.1

B.2

C.3

D.7

第 107 题

你有一个32x32x16的输入,并使用步幅为2、过滤器大小为2的最大化池,请问输出是多少?

A.15x15x16

B.16x16x8

C.16x16x16

D.32x32x8

第 108 题

因为池化层不具有参数,所以它们不影响反向传播的计算。

A.对 B.不对

第 109 题

在视频中,我们谈到了“参数共享”是使用卷积网络的好处。关于参数共享的下列哪个陈述是正确的?(选出所有正确项)

A.它减少了参数的总数,从而减少过拟合。

B.它允许在整个输入值的多个位置使用特征检测器。

C.它允许为一项任务学习的参数即使对于不同的任务也可以共享(迁移学习)。

D.它允许梯度下降将许多参数设置为零,从而使得连接稀疏。

第 110 题

在课堂上,我们讨论了“稀疏连接”是使用卷积层的好处。这是什么意思?

A.正则化导致梯度下降将许多参数设置为零。

B.每个过滤器都连接到上一层的每个通道。

C.下一层中的每个激活只依赖于前一层的少量激活。

D.卷积网络中的每一层只连接到另外两层。

101-110题 答案

101.B 102.D 103.B 104.A 105.B 106.C 107.C 108.B 109.BD 110.C

第 111 题

在典型的卷积神经网络中,随着网络的深度增加,你能看到的现象是?

A.

增加,同时
减少

B.

减少,同时
也减少

C.

增加,同时
也增加

D.

减少,同时
增加

第 112 题

在典型的卷积神经网络中,你能看到的是?

A.多个卷积层后面跟着的是一个池化层

B.多个池化层后面跟着的是一个卷积层

C.全连接层(FC)位于最后的几层

D.全连接层(FC)位于开始的几层

第 113 题

为了构建一个非常深的网络,我们经常在卷积层使用“valid”的填充,只使用池化层来缩小激活值的宽/高度,否则的话就会使得输入迅速的变小。

A.对

B.不对

第 114 题

训练更深层的网络(例如,在网络中添加额外的层)可以使网络适应更复杂的功能,因此几乎总是会导致更低的训练错误。对于这个问题,假设是指“普通”网络

A.对 B.不对

第 115 题

下面计算残差(ResNet)块的公式中,横线上应该分别填什么?

A.分别是

B.分别是

C.分别是

D.分别是

第 116 题

关于残差网络下面哪个(些)说法是正确的?

A.使用跳越连接能够对反向传播的梯度下降有益,且能够帮你对更深的网络进行训练

B.跳跃连接计算输入的复杂的非线性函数以传递到网络中的更深层

C.有L层的残差网络一共有

种跳跃连接的顺序

D.跳跃连接能够使得网络轻松地学习残差块类的输入输出间的身份映射

第 117 题

假设你的输入的维度为64x64x16,单个1x1的卷积过滤器含有多少个参数(包括偏差)?

A.2

B.17

C.4097

D.1

第 118 题

假设你有一个维度为

的卷积输入,下面哪个说法是正确的(假设卷积层为1x1,步长为1,padding为0)?

A.你能够使用1x1的卷积层来减少

,但是不能减少

B.你可以使用池化层减少

,但是不能减少

C.你可以使用一个1x1的卷积层来减少

D.你可以使用池化层减少

第 119 题

关于 Inception 网络下面哪些说法是正确的

A.Inception 网络包含了各种网络的体系结构(类似于随机删除节点模式,它会在每一步中随机选择网络的结构),因此它具有随机删除节点的正则化效应。

B.Inception 块通常使用1x1的卷积来减少输入卷积的大小,然后再使用3x3和5x5的卷积。

C.一个inception 块允许网络使用1x1, 3x3, 5x5 的和卷积个池化层的组合。

D.通过叠加inception块的方式让inception网络更深,不会损害训练集的表现。

第 120 题

下面哪些是使用卷积网络的开源实现(包含模型/权值)的常见原因?

A.为一个计算机视觉任务训练的模型通常可以用来数据扩充,即使对于不同的计算机视觉任务也是如此。

B.为一个计算机视觉任务训练的参数通常对其他计算机视觉任务的预训练是有用的。

C.使用获得计算机视觉竞赛奖项的相同的技术,广泛应用于实际部署。

D.使用开源实现可以很简单的来实现复杂的卷积结构。

111-120题 答案

111.D 112.AC 113.B 114.B 115.B 116.BD 117.B 118.AB 119.BC 120.BCD

第 121 题

现在你要构建一个能够识别三个对象并定位位置的算法,这些对象分别是:行人(c=1),汽车(c=2),摩托车(c=3)。下图中的标签哪个是正确的?注:

66ebd963e766e12d203e96f347d0c12e.png

A.y=[1, 0.3, 0.7, 0.3, 0.3, 0, 1, 0]

B.y=[1, 0.7, 0.5, 0.3, 0.3, 0, 1, 0]

C.y=[1, 0.3, 0.7, 0.5, 0.5, 0, 1, 0]

D.y=[1, 0.3, 0.7, 0.5, 0.5, 1, 0, 0]

E.y=[0, 0.2, 0.4, 0.5, 0.5, 0, 1, 0]

第 122 题

继续上一个问题,下图中y的值是多少?注:“?”是指“不关心这个值”,这意味着神经网络的损失函数不会关心神经网络对输出的结果,和上面一样,

4abc123a5dcac85e97c7de380be2c80d.png

A.y=[1, ?, ?, ?, ?, 0, 0, 0]

B.y=[0, ?, ?, ?, ?, ?, ?, ?]

C.y=[?, ?, ?, ?, ?, ?, ?, ?]

D.y=[0, ?, ?, ?, ?, 0, 0, 0]

E.y=[1, ?, ?, ?, ?, ?, ?, ?]

第 123 题

你现在任职于自动化工厂中,您的系统将看到一罐饮料沿着传送带向下移动,你要对其进行拍照,然后确定照片中是否有饮料罐,如果有的话就对其进行包装。饮料罐头是圆的,而包装盒是方的,每一罐饮料的大小是一样的,每个图像中最多只有一罐饮料,现在你有下面的方案可供选择,这里有一些训练集图像:

a9973e6fc7516c8ea43771a708dab0b9.png

你的神经网络最合适的输出单位是什么?

A.逻辑单元(用于分类图像中是否有罐头)

B.逻辑单元,

C.逻辑单元,

(因为
,所以只需要一个就行了)

D.逻辑单元,

第 124 题

如果你想要构建一个能够输入人脸图片,输出为N个标记的神经网络(假设图像只包含一张脸),那么你的神经网络有多少个输出节点?

A.N B.2N C.3N D.

第 125 题

在训练课程中描述的一个对象检测系统中,您需要一个训练集,其中包含许多要检测的对象的图片。但是,由于该算法可以学习自检测对象,因此不需要在训练集中提供边界框。

A.正确 B.错误

第 126 题

如你正在应用一个滑动窗口分类器(非卷积实现),增加步长不仅会提高准确性,也会降低成本。

A.正确 B.错误

第 129 题

假如你在下图中的预测框中使用非最大值抑制,其参数是放弃概率≤ 0.4的框,并决定两个框IoU的阈值为0.5,使用非最大值抑制后会保留多少个预测框?

a245f8afb0b76f22bbc97e11a6eaa48c.png

A.3 B.4 C.5 D.6 E.7

第 130 题

假如你使用YOLO算法,使用19x19格子来检测20个分类,使用5个锚框(anchor box)。在训练的过程中,对于每个图像你需要输出卷积后的结果y作为神经网络目标值(这是最后一层),

可能包括一些“?”或者“不关心的值”。请问最后的输出维度是多少?

A.19x19x(25x20)

B.19x19x(20x25)

C.19x19x(5x25)

D.19x19x(5x20)

121-130题 答案

121.A 122.B 123.B 124.B 125.B 126.B 129.C 130.C

第 131 题

面部验证只需要将新图片与1个人的面部进行比较,而面部识别则需要将新图片与K个人的面部进行比较。

A.正确 B.错误

第 132 题

在人脸验证中函数d(img1,img2)起什么作用?

A.只需要给出一个人的图片就可以让网络认识这个人

B.为了解决一次学习的问题

C.这可以让我们使用softmax函数来学习预测一个人的身份,在这个单元中分类的数量等于数据库中的人的数量加1

D.鉴于我们拥有的照片很少,我们需要将它运用到迁移学习中

第 133 题

为了训练人脸识别系统的参数,使用包含了10万个不同的人的10万张图片的数据集进行训练是合理的。

A.正确 B.错误

第 134 题

下面哪个是三元组损失的正确定义(请把

也考虑进去)?

A.

B.

C.

D.

第 135 题

在下图中的孪生卷积网络(Siamese network)结构图中

b7946508cec2cb5cb138714e92ca357c.png

上下两个神经网络拥有不同的输入图像,但是其中的网络参数是完全相同的

A.正确 B.错误

第 136 题

你在一个拥有100种不同的分类的数据集上训练一个卷积神经网络,你想要知道是否能够找到一个对猫的图片很敏感的隐藏节点(即在能够强烈激活该节点的图像大多数都是猫的图片的节点),你更有可能在第4层找到该节点而不是在第1层更有可能找到。

A.正确 B.错误

第 137 题

神经风格转换被训练为有监督的学习任务,其中的目标是输入两个图像 (x),并训练一个能够输出一个新的合成图像(y)的网络

A.正确 B.错误

第 138 题

在一个卷积网络的深层,每个通道对应一个不同的特征检测器,风格矩阵

度量了l层中不同的特征探测器的激活(或相关)程度

A.正确 B.错误

第 139 题

在神经风格转换中,在优化算法的每次迭代中更新的是什么?

A.神经网络的参数

B.生成图像G的像素值

C.正则化参数

D.内容图像C的像素值

第 140 题

你现在用拥有的是3D的数据,现在构建一个网络层,其输入的卷积是32×32×32×1632×32×32×16(此卷积有16个通道),对其使用3232个3×3×33×3×3的过滤器(无填充,步长为1)进行卷积操作,请问输出的卷积是多少?

A.30×30×30×32

B.不能操作,因为指定的维度不匹配,所以这个卷积步骤是不可能执行的

C.30×30×30×16

131-140题 答案

131.A 132.AB 133.B 134.A 135.A 136.A 137.B 138.A 139.B 140.A

第 142 题

看一下下面的这个循环神经网络:

6c58e9b425c95c3a2d38cc12a98c4dce.png

在下面的条件中,满足上图中的网络结构的参数是:

A.

B.$T_x

C.

D.

第 143 题

这些任务中的哪一个会使用多对一的RNN体系结构?

8d2430fce4302b20c592b4bd9503fdd1.png

A.语音识别(输入语音,输出文本)

B.情感分类(输入一段文字,输出0或1表示正面或者负面的情绪)

C.图像分类(输入一张图片,输出对应的标签)

D.人声性别识别(输入语音,输出说话人的性别)

第 144 题

假设你现在正在训练下面这个RNN的语言模型:

af892e71d37b9703184ba5f25a279e4b.png

时,这个RNN在做什么?

A.计算

B.计算

C.计算

D.计算

第 145 题

你已经完成了一个语言模型RNN的训练,并用它来对句子进行随机取样,如下图:

e806aa0420225ace235e807c42ff58af.png

在每个时间步tt都在做什么?

A.(1)使用RNN输出的概率,选择该时间步的最高概率单词作为

,(2)然后将训练集中的正确的单词传递到下一个时间步

B.(1)使用由RNN输出的概率将该时间步的所选单词进行随机采样作为

,(2)然后将训练集中的实际单词传递到下一个时间步

C.(1)使用由RNN输出的概率来选择该时间步的最高概率词作为

,(2)然后将该选择的词传递给下一个时间步

D.(1)使用RNN该时间步输出的概率对单词随机抽样的结果作为

,(2)然后将此选定单词传递给下一个时间步

第 146 题

你正在训练一个RNN网络,你发现你的权重与激活值都是“NaN”,下列选项中,哪一个是导致这个问题的最有可能的原因?

A.梯度消失

B.梯度爆炸

C.ReLU函数作为激活函数g(.),在计算g(z)时,z的数值过大了

D.Sigmoid函数作为激活函数g(.),在计算g(z)时,z的数值过大了

第 147 题

假设你正在训练一个LSTM网络,你有一个10,000词的词汇表,并且使用一个激活值维度为100的LSTM块,在每一个时间步中,

的维度是多少?

A.1

B.100

C.300

D.10000

第 148 题

这里有一些GRU的更新方程:

0b90a10b048e48b933e0ec4059f69064.png

爱丽丝建议通过移除

来简化GRU,即设置
。贝蒂提出通过移除
来简化GRU,即设置
。哪种模型更容易在梯度不消失问题的情况下训练,即使在很长的输入序列上也可以进行训练?

A.爱丽丝的模型(即移除

),因为对于一个时间步而言,如果
,梯度可以通过时间步反向传播而不会衰减。

B.爱丽丝的模型(即移除

),因为对于一个时间步而言,如果
,梯度可以通过时间步反向传播而不会衰减。

C.贝蒂的模型(即移除

),因为对于一个时间步而言,如果
,梯度可以通过时间步反向传播而不会衰减。

D.贝蒂的模型(即移除

),因为对于一个时间步而言,如果
,梯度可以通过时间步反向传播而不会衰减。

第 149 题

这里有一些GRU和LSTM的方程:

f61fa9342a36495a0f40502ed3a29425.png

从这些我们可以看到,在LSTM中的更新门和遗忘门在GRU中扮演类似___与___的角色,空白处应该填什么?

A.

B.

C.

D.

第 150 题

你有一只宠物狗,它的心情很大程度上取决于当前和过去几天的天气。你已经收集了过去365天的天气数据

,这些数据是一个序列,你还收集了你的狗心情的数据
,你想建立一个模型来从x到y进行映射,你应该使用单向RNN还是双向RNN来解决这个问题?

A.双向RNN,因为在

日的情绪预测中可以考虑到更多的信息。

B.双向RNN,因为这允许反向传播计算中有更精确的梯度。

C.单向RNN,因为

的值仅依赖于
,而不依赖于

D.单向RNN,因为

的值只取决于
,而不是其他天的天气。

141-150题 答案

142.A 143.BD 144.C 145.D 146.B 147.B 148.C 149.A 150.C

第 151 题

假设你为10000个单词学习词嵌入,为了捕获全部范围的单词的变化以及意义,那么词嵌入向量应该是10000维的。

A.正确 B.错误

第 155 题

为嵌入矩阵,
对应的是词“1234”的独热向量,为了获得1234的词嵌入,为什么不直接在Python中使用代码
呢?

A.因为这个操作是在浪费计算资源

B.因为正确的计算方式是

C.因为它没有办法处理未知的单词()

D.以上全都不对,因为直接调用

是最好的方案

第 156 题

在学习词嵌入时,我们创建了一个预测

的任务,如果这个预测做的不是很好那也是没有关系的,因为这个任务更重要的是学习了一组有用的嵌入词。

A.正确 B.错误

第 157 题

在word2vec算法中,你要预测

,其中
是目标词(target word),
是语境词(context word)。你应当在训练集中怎样选择
呢?

A.

应当在附近词中

B.

是在
前面的一个词

C.

之前句子中所有单词的序列

D.

之前句子中几个单词的序列

第 158 题

假设你有1000个单词词汇,并且正在学习500维的词嵌入,word2vec模型使用下面的softmax函数:

以下说法中哪一个(些)是正确的?

A.

都是500维的向量

B.

都是10000维的向量

C.

与$e_c%都是通过Adam或梯度下降等优化算法进行训练的

D.训练之后,

应该非常接近
,因为ttt和ccc是一个词

第 159 题

假设你有10000个单词词汇,并且正在学习500维的词嵌入,GloVe模型最小化了这个目标:

以下说法中哪一个(些)是正确的?

A.

应当初始化为0

B.

应当使用随机数进行初始化

C.

是单词i在j中出现的次数

D.加权函数

必须满足

第 160 题

你已经在文本数据集

上训练了词嵌入,现在准备将它用于一个语言任务中,对于这个任务,你有一个单独标记的数据集
,请记住,使用词嵌入是一种迁移学习的形式。在以下那种情况中,词嵌入会有帮助?

A.

B.

151-160题 答案

151.B 156.B 157.A 158.AC 159.BCD 160.A

第 161 题

想一想使用如下的编码-解码模型来进行机器翻译:

028ade259d70c7f426666013bed1c3d2.png

这个模型是“条件语言模型”,编码器部分(绿色显示)的意义是建模中输入句子x的概率

A.正确 B.错误

第 162 题

在集束搜索中,如果增加集束宽度

,以下哪一项是正确的?

A.集束搜索将运行的更慢

B.集束搜索将使用更多的内存

C.集束搜索通常将找到更好地解决方案(比如:在最大化概率

上做的更好)

D.集束搜索将在更少的步骤后收敛

第 163 题

在机器翻译中,如果我们在不使用句子归一化的情况下使用集束搜索,那么算法会输出过短的译文。

A.正确 B.错误

第 164 题

假设你正在构建一个能够让语音片段

转为译文
的基于RNN模型的语音识别系统,你的程序使用了集束搜索来试着找寻最大的
的值yyy。在开发集样本中,给定一个输入音频,你的程序会输出译文
= “I’m building an A Eye system in Silly con Valley.”,人工翻译为
= “I’m building an AI system in Silicon Valley.”

在你的模型中,

那么,你会增加集束宽度

来帮助修正这个样本吗?

A.不会,因为

说明了问题在RNN,而不是搜索算法

B.不会,因为

说明了问题在搜索算法,而不是RNN

C.会的,因为

说明了问题在RNN,而不是搜索算法

D.会的,因为

说明了问题在搜索算法,而不是RNN

第 165 题

接着使用第4题的样本,假设你花了几周的时间来研究你的算法,现在你发现,对于绝大多数让算法出错的例子而言,

,这表明你应该将注意力集中在改进搜索算法上,对吗?

A.正确 B.错误

第 166 题

回想一下机器翻译的模型:

6c6ca2688bdbd627e84d0331ed28d2f6.png

除此之外,还有个公式

下面关于
的选项那个(些)是正确的?

A.对于网络中与输出

高度相关的
而言,我们通常希望
的值更大(请注意上标)

B.对于网络中与输出

高度相关的
而言,我们通常希望
的值更大(请注意上标)

C.

(注意是和除以t)

D.

(注意是和除以t')

第 167 题

网络通过学习的值

来学习在哪里关注“关注点”,这个值是用一个小的神经网络的计算出来的:

这个神经网络的输入中,我们不能将

替换为
这是因为
依赖于
,而
又依赖于
;所以在我们需要评估这个网络时,我们还没有计算出

A.正确 B.错误

第 168 题

与题151中的编码-解码模型(没有使用注意力机制)相比,我们希望有注意力机制的模型在下面的情况下有着最大的优势:

A.输入序列的长度

比较大

B.输入序列的长度

比较小

第 169 题

在CTC模型下,不使用"空白"字符(_)分割的相同字符串将会被折叠。那么在CTC模型下,以下字符串将会被折叠成什么样子?__c_oo_o_kk___b_ooooo__oo__kkk

A.cokbok

B.cookbook

C.cook book

D.coookkboooooookkk

第 170 题

在触发词检测中,

是:

A.时间

时的音频特征(就像是频谱特征一样)

B.第

个输入字,其被表示为一个独热向量或者一个字嵌入

C.是否在第

时刻说出了触发词

D.是否有人在第

时刻说完了触发词

161-170题 答案

161.B 162.ABC 163.A 164.A 165.A 166.AD 167.A 168.A 169.B 170.A

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值