深度学习填空题大全_深度学习发展史题目-CSDN博客

本文链接：https://blog.csdn.net/m0_63785307/article/details/147049666

一、单选题

1.深度学习的雏形出现在什么时候？（）

A、20 世纪 80 年代 - 90 年代的联结主义中

B、2006 年深度学习复兴之时

C、20 世纪 40 年代 - 60 年代的控制论中

D、21 世纪初随着大数据的兴起

答案：C

题目难度：中等

关联知识点：神经网络的众多名称和命运变迁

2.以下哪个不是深度学习早期模型的名称？（）

A、感知机

B、自适应线性单元

C、深度信念网络

D、McCulloch - Pitts 神经元

答案：C

题目难度：中等

关联知识点：神经网络的众多名称和命运变迁

3.深度学习模型被认为是受什么启发而设计出来的系统？（）

A、生物大脑

B、计算机硬件发展

C、数学理论进步

D、社会数字化趋势

答案：A

题目难度：中等

关联知识点：神经网络的众多名称和命运变迁

4.导致神经网络热潮第一次大衰退的原因是什么？（）

A、缺乏足够的计算资源

B、线性模型无法学习异或函数，受到批评

C、研究人员对神经网络的兴趣转移

D、其他机器学习技术的竞争

答案：B

题目难度：中等

关联知识点：神经网络的众多名称和命运变迁

5.联结主义的中心思想是什么？（）

A、模拟生物大脑的神经元连接方式

B、用符号推理模型解释智能行为

C、通过大量简单计算单元连接实现智能行为

D、基于数学理论构建智能系统

答案：C

题目难度：中等

关联知识点：神经网络的众多名称和命运变迁

6.以下哪项不是神经网络研究第二次浪潮中的重要成果？（）

A、分布式表示概念的提出

B、反向传播算法的普及

C、长短期记忆网络的引入

D、卷积神经网络的广泛应用

答案：D

题目难度：中等

关联知识点：神经网络的众多名称和命运变迁

7.神经网络热潮第二次衰退的原因不包括以下哪项？（）

A、创业公司不切实际的期望导致投资者失望

B、机器学习其他领域取得进步

C、神经网络研究缺乏新的理论突破

D、深度网络训练计算代价过高

答案：D

题目难度：中等

关联知识点：神经网络的众多名称和命运变迁

8.深度学习第三次浪潮始于何时？（）

A、20 世纪 80 年代

B、20 世纪 90 年代

C、2006 年

D、2016 年

答案：C

题目难度：中等

关联知识点：神经网络的众多名称和命运变迁

9.深度学习第三次浪潮兴起的关键突破是什么？（）

A、新的计算硬件的发明

B、深度信念网络可使用贪婪逐层预训练策略有效训练

C、大数据时代的到来提供了大量数据

D、新的神经网络架构的提出

答案：B

题目难度：中等

关联知识点：与日俱增的数据量

10.深度学习在什么时候开始被视为一种关键技术？（）

A、20 世纪 50 年代

B、20 世纪 80 年代

C、20 世纪 90 年代

D、21 世纪初

答案：D

题目难度：中等

关联知识点：与日俱增的数据量

11.20世纪80年代的学习算法与现在用于复杂任务达到人类水平的学习算法相比（）。

A、完全不同

B、基本一样，但训练模型有变革

C、现在的算法更简单

D、80 年代算法无法用于现在的任务

答案：B

题目难度：中等

关联知识点：与日俱增的数据量

12.深度学习研究重点在第三次浪潮中有何变化？（）

A、从监督学习完全转向无监督学习

B、从关注大型标注数据集转向小数据集

C、开始关注新的无监督学习技术和小数据集泛化能力，同时仍重视传统监督学习和大型标注数据集利用

D、不再关注模型深度，只关注数据量

答案：C

题目难度：中等

关联知识点：与日俱增的数据量

13.以下哪个数据集不是在21世纪初的第一个十年到下五年出现的大型数据集？（）

A、CIFAR - 10 数据集

B、MNIST 数据集

C、ImageNet 数据集

D、Sports - 1M 数据集

答案：B

题目难度：中等

关联知识点：与日俱增的数据量

14.深度学习算法达到人类表现所需的标注样本数量大约是多少？（）

A、每类约 5000 个

B、至少 1000 万个

C、每类至少 1000 万个

D、5000 - 1000 万个

答案：B

题目难度：中等

关联知识点：与日俱增的数据量

15.以下关于数据集发展趋势的说法正确的是（）。

A、数据集大小一直保持稳定增长

B、20世纪初数据集主要是手动制作的小数据集

C、20世纪50 - 80年代数据集主要用于神经网络功能展示，规模较大

D、21世纪初数据集大小没有明显变化

答案：B

题目难度：中等

关联知识点：与日俱增的数据量

16.现代深度学习算法在复杂任务上取得成功的主要原因不包括（）。

A、计算资源的提升使得可以运行更大的模型

B、新的无监督学习技术完全取代了传统监督学习技术

C、训练数据量的大幅增加

D、算法自身的改进，如深度信念网络的有效训练策略

答案：B

题目难度：中等

关联知识点：与日俱增的数据量

17.20世纪80年代神经网络取得相对较小成功的原因之一是（）。

A、算法不够先进

B、数据量不足

C、计算资源限制了模型规模

D、缺乏有效的训练方法

答案：C

题目难度：中等

关联知识点：与日俱增的模型规模

18.联结主义认为动物变得聪明的原因是（）。

A、单个神经元的强大功能

B、神经元之间连接的复杂性

C、许多神经元一起工作

D、神经元的特殊结构

答案：C

题目难度：中等

关联知识点：与日俱增的模型规模

19.关于生物神经元与人工神经元连接数的比较，以下说法正确的是（）。

A、生物神经元连接数远多于人工神经元

B、人工神经元连接数远多于生物神经元

C、两者连接数在同一数量级

D、连接数多少取决于具体的任务

答案：C

题目难度：中等

关联知识点：与日俱增的模型规模

20.人工神经网络规模扩大的主要驱动因素不包括（）。

A、更大的内存

B、更快的计算机

C、新的算法理论

D、更大的可用数据集

答案：C

题目难度：中等

关联知识点：与日俱增的模型规模

21.从神经元总数目来看，目前人工神经网络的规模与生物神经网络相比（）。

A、已经超过生物神经网络

B、与高等生物神经网络相当

C、比一些简单生物的神经网络还小

D、无法与生物神经网络比较

答案：C

题目难度：中等

关联知识点：与日俱增的模型规模

22.按照目前的增长趋势，人工神经网络要达到与人脑相同数量级的神经元可能要到什么时候？（）

A、21 世纪 30 年代

B、21 世纪 50 年代

C、22 世纪初

D、无法预测

答案：B

题目难度：中等

关联知识点：与日俱增的模型规模

23.图1.10中展示的随着时间推移人工神经网络每神经元连接数的变化趋势是（）。

A、逐渐减少

B、保持不变

C、逐渐增加

D、先增加后减少

答案：C

题目难度：中等

关联知识点：与日俱增的模型规模

24.以下哪种神经网络在规模增长历程中被提及？（）

A、决策树网络

B、支持向量机网络

C、深度玻尔兹曼机

D、朴素贝叶斯网络

答案：C

题目难度：中等

关联知识点：与日俱增的模型规模

25.深度学习最早用于识别图像中的对象时，图像具有怎样的特点？（）

A、高分辨率且无需裁剪

B、裁剪紧凑且尺寸较大

C、裁剪紧凑且非常小

D、低分辨率且无需裁剪

答案：C

题目难度：中等

关联知识点：与日俱增的精度、复杂度和对现实世界的冲击

26. ImageNet大型视觉识别挑战（ILSVRC）中，深度学习首次大幅降低错误率是将前 5 错误率降到了多少？（）

A、26.1%

B、15.3%

C、3.6%

D、50%

答案：B

题目难度：中等

关联知识点：与日俱增的精度、复杂度和对现实世界的冲击

27.深度学习对语音识别产生巨大影响，使得语音识别错误率出现怎样的变化？（）

A、略微降低

B、基本不变

C、陡然下降，有些甚至降低一半

D、先升高后降低

答案：C

题目难度：中等

关联知识点：与日俱增的精度、复杂度和对现实世界的冲击

28.以下哪个任务中深度网络取得了超越人类的表现？（）

A、图像分割

B、行人检测

C、交通标志分类

D、机器翻译

答案：C

题目难度：中等

关联知识点：与日俱增的精度、复杂度和对现实世界的冲击

29.神经网络学习输出描述图像的整个字符序列这一成果，此前人们普遍认为需要什么条件？（）

A、大量的训练数据

B、对序列中的单个元素进行标注

C、更复杂的网络架构

D、更强的计算资源

答案：B

题目难度：中等

关联知识点：与日俱增的精度、复杂度和对现实世界的冲击

30.神经图灵机能够做什么？（）

A、处理高分辨率图像

B、进行语音识别

C、学习简单程序，如排序

D、实现机器翻译

答案：C

题目难度：中等

关联知识点：与日俱增的精度、复杂度和对现实世界的冲击

31.DeepMind基于深度学习的强化学习系统在Atari视频游戏中表现如何？（）

A、表现一般

B、可与人类匹敌

C、远超人类

D、无法完成游戏

答案：B

题目难度：中等

关联知识点：与日俱增的精度、复杂度和对现实世界的冲击

32.深度学习为制药公司做出的贡献是（）。

A、分析市场数据

B、设计新药物

C、管理药品生产流程

D、预测药品销售情况

答案：B

题目难度：中等

关联知识点：与日俱增的精度、复杂度和对现实世界的冲击

33.以下关于标量的说法，正确的是（）。

A、标量是多个数的数组

B、标量只能表示整数

C、标量是一个单独的数，其类型需明确

D、标量在数学中应用较少

答案：C

题目难度：中等

关联知识点：标量、向量、矩阵和张量

34.两个相同维数的向量x和y的点积x T y，结果是（）。

A、一个向量

B、一个矩阵

C、一个标量

D、一个张量

答案：C

题目难度：中等

关联知识点：标量、向量、矩阵和张量

35.已知矩阵A

2×3，矩阵B

3×2，则AB的形状是（）。

A、2×2

B、3×3

C、2×3

D、3×2

答案：A

题目难度：中等

关联知识点：标量、向量、矩阵和张量

36.若矩阵A的转置AT=A，则矩阵A具有什么性质？（）

A、A是对称矩阵

B、A是单位矩阵

C、A是对角矩阵

D、A是零矩阵

答案：A

题目难度：中等

关联知识点：标量、向量、矩阵和张量

37.若s表示一条线的斜率，那么s属于以下哪种类型的标量？（）

A、自然数标量

B、整数标量

C、实数标量

D、复数标量

答案：C

题目难度：中等

关联知识点：标量、向量、矩阵和张量

38.向量x=[x1，x2，x3]T，这里将向量表示为行矩阵转置的形式，目的是（）。

A、遵循某种数学约定

B、方便进行矩阵乘法运算

C、将其转化为标准的列向量形式

D、使向量元素的表示更清晰

答案：C

题目难度：中等

关联知识点：矩阵和向量相乘

39.若矩阵A的形状是3×4，矩阵B的形状是4×2，那么矩阵A和B的矩阵乘积AB的形状是（）。

A、3×2

B、4×4

C、2×3

D、3×4

答案：A

题目难度：中等

关联知识点：矩阵和向量相乘

40.矩阵乘法不满足交换律，即AB≠BA，以下关于此说法的原因正确的是（）。

A、矩阵乘法的定义导致其不满足交换律

B、矩阵的形状在乘法中起到关键作用，交换后形状可能不匹配

C、矩阵乘法的计算过程复杂，无法保证交换后的结果相同

D、矩阵元素的排列顺序在乘法中是固定的，不能随意交换

答案：B

题目难度：中等

关联知识点：矩阵和向量相乘

41.以下哪项不属于机器学习中需要使用概率论的原因？（）

A、处理被建模系统内在的随机性

B、简化复杂的计算过程

C、应对不完全观测导致的不确定性

D、弥补不完全建模产生的不确定性

答案：B

题目难度：中等

关联知识点：为什么要使用概率？

42.在Monty Hall问题中，从选手角度结果不确定的原因是（）。

A、游戏本身具有随机性

B、选手无法观测到所有驱动系统行为的变量

C、模型对结果的预测不准确

D、选手的选择是随机的

答案：B

题目难度：中等

关联知识点：为什么要使用概率？

43.以下哪种情况体现了被建模系统内在的随机性？（）

A、测量仪器的误差导致观测数据不准确

B、量子力学中亚原子粒子的动力学

C、对数据进行抽样时的随机性

D、由于模型简化而忽略了一些因素导致的不确定性

答案：B

题目难度：中等

关联知识点：为什么要使用概率？

44.对于“鸟儿会飞”这个陈述，以下说法正确的是（）。

A、这是一个确定的规则，适用于所有鸟类

B、这是一个简单但不确定的规则，在实际中更实用

C、这是一个复杂而确定的规则，但难以应用

D、这是一个基于频率派概率的规则

答案：B

题目难度：中等

关联知识点：为什么要使用概率？

45.频率派概率主要用于分析（）。

A、事件发生的信任度

B、不可重复事件的可能性

C、事件发生的频率

D、基于主观判断的概率

答案：C

题目难度：中等

关联知识点：为什么要使用概率？

46.贝叶斯概率用于表示（）。

A、事件发生的频率

B、对事件发生的信任度

C、基于大量重复实验的结果

D、客观的概率值

答案：B

题目难度：中等

关联知识点：为什么要使用概率？

47.以下关于不确定性来源的说法，错误的是（）。

A、不完全建模会导致模型预测出现不确定性

B、所有的不确定性都来自被建模系统内在的随机性

C、不完全观测会使确定的系统呈现随机性

D、量子力学中部分现象体现了系统内在的随机性

答案：B

题目难度：中等

关联知识点：为什么要使用概率？

48.与逻辑相比，概率论的独特之处在于（）。

A、能够判断命题的真假

B、提供了一套形式化规则

C、可以在给定一些命题似然后计算其他命题为真的似然

D、处理确定性的情况

答案：C

题目难度：中等

关联知识点：为什么要使用概率？

49.以下关于随机变量的表述，正确的是（）。

A、随机变量只能取有限个值

B、随机变量的取值一定是数值型的

C、随机变量是对可能状态的描述，需结合概率分布确定取值可能性

D、随机变量的取值完全随机，没有任何规律

答案：C

题目难度：中等

关联知识点：随机变量

50.对于离散型随机变量，以下说法错误的是（）。
A、其状态可以是有限个或可数无限多个
B、状态不一定是整数，也可以是被命名的状态
C、概率质量函数（PMF）用于描述其概率分布
D、其取值范围一定是整数区间
答案：D

题目难度：中等

关联知识点：随机变量

51.关于连续型随机变量，以下描述正确的是（）。
A、其概率分布只能用概率密度函数（PDF）描述，不能用 PMF
B、它的取值是有限个实数值
C、其概率密度函数在某点的值就是该点的概率
D、它的取值范围一定是整个实数轴
答案：A

题目难度：中等

关联知识点：随机变量

52.以下哪个不是随机变量的常见分类？（）

A、确定型随机变量

B、离散型随机变量

C、连续型随机变量

D、向量值随机变量

答案：A

题目难度：中等

关联知识点：随机变量

53.随机变量x服从某一分布，若P（x=3）=0，则意味着（）。

A、x不可能取到3这个值

B、x取3这个值的概率非常小

C、x取3这个值的概率在计算中被忽略了

D、x取3这个值的概率未知

答案：A

题目难度：中等

关联知识点：随机变量

54.离散型随机变量概率分布的描述方式是（）。

A、概率密度函数

B、累积分布函数

C、概率质量函数

D、特征函数

答案：C

题目难度：中等

关联知识点：离散型变量和概率质量函数

55.设随机变量X表示掷骰子的点数，那么X是（）。
A、连续型随机变量
B、离散型随机变量
C、既不是连续型也不是离散型随机变量
D、无法确定
答案：B

题目难度：中等

关联知识点：离散型变量和概率质量函数

56.对于离散型随机变量X的概率质量函数P(X)，其定义域是（）。

A、实数集R

B、X所有可能状态的集合

C、正整数集

D、非负整数集

答案：B

题目难度：中等

关联知识点：离散型变量和概率质量函数

57.已知离散型随机变量X有4个不同状态，其概率质量函数为P(X)，则P(X)的图像可能是（）。

A、一条连续的曲线

B、一条直线

C、一系列离散的点

D、一个圆

答案：C

题目难度：中等

关联知识点：离散型变量和概率质量函数

58.若离散型随机变量X的概率质量函数为P（X=1）=0.2，P（X=1）=0.3，P（X=1）=0.5，则P（X≤2）的值为（）。

A、0.2

B、0.3

C、0.5

D、0.6

答案：C

题目难度：中等

关联知识点：离散型变量和概率质量函数

59.离散型随机变量X的概率质量函数P(X)中，P（X=

）表示（）。

A、X小于

的概率

B、X大于

的概率

C、X等于

的概率

D、X不等于

的概率

答案：C

题目难度：中等

关联知识点：离散型变量和概率质量函数

60.连续型随机变量概率分布的描述方式是（）。

A、概率质量函数

B、累积分布函数

C、概率密度函数

D、特征函数

答案：C

题目难度：中等

关联知识点：连续型变量和概率密度函数

61.对于概率密度函数p（

），其定义域（）。

A、是

所有可能状态的集合

B、是[0,1]区间

C、是正实数集

D、是整数集

答案：A

题目难度：中等

关联知识点：连续型变量和概率密度函数

62.设p(

)是连续型随机变量X的概率密度函数，那么p(

)的值（）。
A、一定在[0,1]之间
B、可以大于1
C、一定小于1
D、只能是正数
答案：B

题目难度：中等

关联知识点：连续型变量和概率密度函数

63.若连续型随机变量X服从均匀分布U（0,2），则其概率密度函数p(

)在（0,2）上的值为（）。

A、0

B、0.5

C、1

D、2

答案：B

题目难度：中等

关联知识点：连续型变量和概率密度函数

64.若函数f(

)的 Hessian 矩阵是正定的，则在临界点f(

)处是（）。

A、局部极小点

B、局部极大点

C、鞍点

D、无法确定

答案：A

题目难度：中等

关联知识点：梯度之上：Jacobian 和Hessian 矩阵

65.在多维情况下，若 Hessian 矩阵的特征值中至少一个是正的且至少一个是负的，则临界点

是（）。
A、局部极小点
B、局部极大点
C、鞍点
D、全局最小点
答案：C

题目难度：中等

关联知识点：梯度之上：Jacobian 和Hessian 矩阵

66.仅使用梯度信息的优化算法称为（）。

A、一阶优化算法

B、二阶优化算法

C、高阶优化算法

D、无阶优化算法

答案：A

题目难度：中等

关联知识点：梯度之上：Jacobian 和Hessian 矩阵

67.牛顿法属于（）。
A、一阶优化算法
B、二阶优化算法
C、高阶优化算法
D、无阶优化算法
答案：B

题目难度：中等

关联知识点：梯度之上：Jacobian 和Hessian 矩阵

68.深度学习中，若函数满足Lipschitz连续，其变化速度以（）为界。

A、Lipschitz 常数

B、梯度值

C、二阶导数

D、特征值

答案：A

题目难度：中等

关联知识点：梯度之上：Jacobian 和Hessian 矩阵

69.凸优化算法适用于（）。
A、所有函数
B、凸函数
C、非凸函数
D、二次函数
答案：B

题目难度：中等

关联知识点：梯度之上：Jacobian 和Hessian 矩阵

70. XOR 函数是对两个二进制值

1和

2进行运算，当（）时返回值为1。

A、

2=0

B、

2=1

C、

1= 0,

2=1或

1=1,

2=0

D、以上都不对

答案：C

题目难度：中等

关联知识点：实例：学习XOR

71.为解决 XOR 问题引入的前馈神经网络有（）隐藏层。

A、0 层

B、1 层

C、2 层

D、多层

答案：B

题目难度：中等

关联知识点：实例：学习XOR

72.在现代神经网络中，默认推荐的激活函数是（）。

A、逻辑 sigmoid 函数

B、双曲正切函数

C、整流线性单元（ReLU）

D、软加函数

答案：C

题目难度：中等

关联知识点：实例：学习XOR

73.在学习XOR函数的例子中，采用均方误差损失函数的原因是（）。

A、它是最适合二进制数据建模的损失函数

B、为了简化本例中用到的数学

C、它能保证找到全局最优解

D、以上都不对

答案：B

题目难度：中等

关联知识点：实例：学习XOR

74.对于解决XOR问题的神经网络，其训练过程与其他机器学习模型的主要区别在于（）。

A、神经网络的非线性导致代价函数通常非凸

B、神经网络需要更多的训练数据

C、神经网络的参数更多

D、神经网络的训练速度更快

答案：A

题目难度：中等

关联知识点：实例：学习XOR

75.大多数现代神经网络使用最大似然训练时，其代价函数等价于（）。

A、负的对数似然

B、正的对数似然

C、均方误差

D、平均绝对误差

答案：A

题目难度：中等

关联知识点：使用最大似然学习条件分布

76.使用最大似然导出代价函数的优势在于（）。

A、减少计算量

B、保证全局最优解

C、自动确定代价函数

D、提高模型复杂度

答案：C

题目难度：中等

关联知识点：使用最大似然学习条件分布

77.对于离散型输出变量，多数模型在参数化时（）。

A、能准确表示概率零和一

B、不能表示概率零和一，但可无限接近

C、只能表示概率零

D、只能表示概率一

答案：B

题目难度：中等

关联知识点：使用最大似然学习条件分布

78.当模型可以控制输出分布的密度时，对于实值输出变量，可能导致交叉熵趋向（）。

A、正无穷

B、负无穷

C、零

D、一

答案：B

题目难度：中等

关联知识点：使用最大似然学习条件分布

79.负的对数似然代价函数可避免（）问题。

A、梯度消失

B、过拟合

C、欠拟合

D、模型不收敛

答案：A

题目难度：中等

关联知识点：使用最大似然学习条件分布

80.以下关于最大似然学习条件分布中代价函数的说法，错误的是（）。

A、形式随模型改变

B、与log pmodel形式有关

C、一定有最小值

D、可通过最大似然确定

答案：C

题目难度：中等

关联知识点：使用最大似然学习条件分布

81.若想通过变分法学习给定

时

的均值，应设计代价泛函使其在（）取得最小值。

A、能预测

所有值的函数

B、将

映射到

均值的函数

C、恒为零的函数

D、随机函数

答案：B

题目难度：中等

关联知识点：使用最大似然学习条件分布

82.当学习条件统计量时，我们的目标可能是（）。

A、学习完整的概率分布p(

;

)

B、学习给定

时

的某个条件统计量，如均值

C、学习模型的参数

D、学习数据的分布特征

答案：B

题目难度：中等

关联知识点：学习条件统计量

83.对于实值输出变量的模型，若能控制输出分布密度，可能导致交叉熵（）。

A、趋向正无穷

B、趋向负无穷

C、等于零

D、无变化

答案：B

题目难度：中等

关联知识点：学习条件统计量

84.以下哪种代价函数在使用基于梯度的优化方法时成效不佳？（）

A、交叉熵代价函数

B、均方误差

C、负对数似然

D、平均绝对误差

答案：B

题目难度：中等

关联知识点：学习条件统计量

85.当用变分法求解优化问题得到函数预测

取值的中位数时，对应的代价函数通常是（）。

A、均方误差

B、平均绝对误差

C、交叉熵

D、负对数似然

答案：B

题目难度：中等

关联知识点：学习条件统计量

86.若模型能表示一大类函数中的任何一个函数

，这个类通常受（）限制。
A、特定的参数形式
B、连续性和有界等特征
C、输入数据的范围
D、输出数据的范围
答案：B

题目难度：中等

关联知识点：学习条件统计量

87.学习条件统计量时，可把代价函数看作（）。

A、一个函数

B、一个泛函

C、一个变量

D、一个常数

答案：B

题目难度：中等

关联知识点：学习条件统计量

88.用变分法导出的预测

均值的函数

)要求（）。

A、函数在优化的类里

B、函数为线性函数

C、函数有界

D、函数可导

答案：A

题目难度：中等

关联知识点：学习条件统计量

89.对于离散型输出变量的模型，多数以一种特殊形式参数化，即（）。

A、能准确表示概率零和一

B、不能表示概率零和一，但可无限接近

C、只能表示概率零

D、只能表示概率一

答案：B

题目难度：中等

关联知识点：学习条件统计量

90.线性输出层常用于产生条件高斯分布的（）。

A、均值

B、方差

C、协方差

D、标准差

答案：A

题目难度：中等

关联知识点：学习条件统计量

91.用于高斯输出分布的线性单元基于（）变换。

A、线性

B、非线性

C、仿射

D、指数

答案：C

题目难度：中等

关联知识点：用于高斯输出分布的线性单元

92.线性输出层常用于产生条件高斯分布的（）。

A. 均值

B. 方差

C. 协方差

D. 标准差

答案：A

题目难度：中等

关联知识点：用于高斯输出分布的线性单元

93.对于线性输出单元，最大化其对数似然等价于（）。

A、最小化均方误差

B、最小化平均绝对误差

C、最大化交叉熵

D、最小化交叉熵

答案：A

题目难度：中等

关联知识点：用于高斯输出分布的线性单元

94.线性输出单元在优化算法中的优势是（）。

A、不会饱和，易于采用基于梯度的优化算法

B、计算复杂度低

C、能自动调整参数

D、可处理高维数据

答案：A

题目难度：中等

关联知识点：用于高斯输出分布的线性单元

95.在学习高斯分布的协方差矩阵时，线性输出层（）。
A、可直接准确学习
B、很难满足协方差矩阵正定的限定
C、不需要任何限定条件
D、比其他输出单元更有效
答案：B

题目难度：中等

关联知识点：用于高斯输出分布的线性单元

96.以下关于用于高斯输出分布的线性单元的说法，错误的是（）。
A、它是基于仿射变换的
B、它可产生高斯分布的均值和方差
C、它在优化中具有优势
D、它与代价函数的选择有关
答案：B

题目难度：中等

关联知识点：用于高斯输出分布的线性单元

97.若要对高斯分布的协方差矩阵进行参数化，通常（）。

A、只能使用线性输出单元

B、优先选择线性输出单元

C、不选择线性输出单元

D、线性输出单元是唯一选择

答案：C

题目难度：中等

关联知识点：用于高斯输出分布的线性单元

98.对于Bernoulli分布，用于定义该分布的变量z被称为（）。

A、对数似然

B、分对数

C、似然比

D、交叉熵

答案：B

题目难度：中等

关联知识点：用于Bernoulli 输出分布的sigmoid 单元

99.若使用均方误差作为损失函数训练 sigmoid 输出单元预测 Bernoulli 分布，当 sigmoid 激活函数饱和时（）。

A、梯度不变

B、梯度增大

C、梯度消失

D、无法确定

答案：C

题目难度：中等

关联知识点：用于Bernoulli 输出分布的sigmoid 单元

100.在预测二值型变量 y 的值的任务中，sigmoid 输出单元相比通过阈值限制的线性单元，优势在于（）。

A、计算速度更快

B、能产生更准确的预测值

C、无论何时模型给出错误答案都能有较大梯度

D、不需要训练即可得到较好结果

答案：C

题目难度：中等

关联知识点：用于Bernoulli 输出分布的sigmoid 单元

101.在构建用于 Bernoulli 输出分布的模型时，若不采用 sigmoid 单元，而使用一种新的激活函数，该函数在输出接近 0 和 1 时梯度趋近于无穷小，可能导致的问题是（）。

A、模型训练速度极快

B、模型无法收敛

C、模型对所有样本都能正确预测

D、模型过拟合现象消失

答案：B

题目难度：中等

关联知识点：用于Bernoulli 输出分布的sigmoid 单元

102.在使用 sigmoid 输出单元学习 Bernoulli 分布的过程中，若某样本的损失函数值趋近于 0，这意味着（）。

A、模型对该样本预测错误且梯度较大

B、模型对该样本预测正确且梯度较大

C、模型对该样本预测错误且梯度趋近于 0

D、模型对该样本预测正确且梯度趋近于 0

答案：D

题目难度：中等

关联知识点：用于Bernoulli 输出分布的sigmoid 单元

103. softmax 函数常用于表示具有 n 个可能取值的离散型随机变量的分布，它可看作是哪种函数的扩展？（）

A、线性函数

B、sigmoid 函数

C、双曲正切函数

D、指数函数

答案：B

题目难度：中等

关联知识点：用于Bernoulli 输出分布的sigmoid 单元

104.当使用最大化对数似然训练softmax输出目标值y时，对数似然中的log可抵消softmax中的（）。

A、线性部分

B、指数部分

C、常数部分

D、对数部分

答案：B

题目难度：中等

关联知识点：用于Multinoulli 输出分布的softmax 单元

105.未正则化的最大似然会驱动模型学习参数，使softmax函数预测训练集中观察到的每个结果的（）。

A、准确值

B、比率

C、差值

D、平方值

答案：B

题目难度：中等

关联知识点：用于Multinoulli 输出分布的softmax 单元

106.以下哪种目标函数对softmax函数不起作用，因其不使用对数抵消softmax中的指数，当指数函数变量取非常小的负值时会造成梯度消失？（）

A、对数似然

B、平方误差

C、绝对值误差

D、交叉熵

答案：B

题目难度：中等

关联知识点：用于Multinoulli 输出分布的softmax 单元

107. softmax激活函数在什么情况下可能饱和？（）

A、输入值接近 0

B、输入值接近 1

C、输入值之间差异变得极端

D、输入值为常数

答案：C

题目难度：中等

关联知识点：用于Multinoulli 输出分布的softmax单元

108.从神经科学角度看，softmax 类似于皮质中相邻神经元间的侧抑制，因为（）。

A、softmax输出总和为 0，一个单元增则其他单元减

B、softmax输出总和为 1，一个单元增则其他单元减

C、softmax输出总和为 0，所有单元同步增减

D、softmax输出总和为 1，所有单元同步增减

答案：B

题目难度：中等

关联知识点：用于Multinoulli 输出分布的softmax单元

109.当学习给定x时y的条件高斯分布方差，若方差为常数，其最大似然估计量是（）。

A、观测值y的均值

B、观测值y与期望值差值的平方平均

C、观测值y的标准差

D、观测值y的平方和

答案：B

题目难度：中等

关联知识点：其他的输出类型

110.对于用精度参数化高斯分布的情况，若原始激活为a，获取正的精度向量常使用的函数是（）。

A、logistic sigmoid 函数

B、双曲正切函数

C、softplus 函数

D、线性函数

答案：C

题目难度：中等

关联知识点：其他的输出类型

111.学习一个满秩且有条件的协方差矩阵时，计算似然的代价很高，主要是因为涉及到（）的高计算量操作。

A、矩阵乘法

B、矩阵求逆或特征值分解

C、向量加法

D、对数运算

答案：B

题目难度：中等

关联知识点：其他的输出类型

112.在多峰回归中，预测条件分布p(y|x) 实值且有多个峰值时，常用的输出表示是（）。

A、高斯分布

B、高斯混合

C、均匀分布

D、伯努利分布

答案：B

题目难度：中等

关联知识点：其他的输出类型

113.混合密度网络输出的高斯混合条件分布中，用于形成混合组件 Multinoulli 分布的是（）。

A、线性函数

B、sigmoid函数

C、softmax函数

D、指数函数

答案：C

题目难度：中等

关联知识点：其他的输出类型

114.在混合密度网络中，学习混合均值时，负对数似然表达式依据（）对每个样本在各组件的贡献加权。

A、组件产生样本的概率

B、样本与均值的距离

C、样本的序号

D、固定权重

答案：A

题目难度：中等

关联知识点：其他的输出类型

115.基于梯度的优化方法对混合条件高斯输出可能不可靠，原因之一是涉及（）运算可能导致数值不稳定。

A、加法

B、减法

C、乘法

D、除法

答案：D

题目难度：中等

关联知识点：其他的输出类型

116.对于更大更复杂的输出向量y建模，若超出本章范畴，如输出字符序列形成句子，可使用（）进一步处理。

A、卷积神经网络

B、循环神经网络

C、递归神经网络

D、深度信念网络

答案：B

题目难度：中等

关联知识点：其他的输出类型

117. 整流线性单元易于优化的主要原因是（）

A. 输出恒大于 0

B. 与线性单元相似，激活时导数大且一致

C. 二阶导数恒为 1

D. 计算复杂度低

答案：B

题目难度：中等

关联知识点：整流线性单元及其扩展

118.初始化整流线性单元仿射变换参数时，将偏置 b 的所有元素设置成小正值（如 0.1）的目的是（）。

A、加快计算速度

B、使单元初始时对大多数输入激活并允许导数通过

C、避免梯度消失

D、减少过拟合

答案：B

题目难度：中等

关联知识点：整流线性单元及其扩展

119. maxout 单元将输入z划分为每组具有k个值的组，其输出为（）。

A、每组中的最小值

B、每组中的平均值

C、每组中的最大元素

D、每组元素之和

答案：C

题目难度：中等

关联知识点：整流线性单元及其扩展

120.关于 maxout 单元，以下说法正确的是（）。

A、只能学习线性函数

B、不能近似凸函数

C、由单个权重向量参数化

D、用足够大的 k 可近似任意凸函数

答案：D

题目难度：中等

关联知识点：整流线性单元及其扩展

121.相比整流线性单元，maxout单元通常（）。

A、不需要正则化

B、需要更多正则化

C、计算速度更快

D、可处理更少的数据

答案：B

题目难度：中等

关联知识点：整流线性单元及其扩展

122.整流线性单元及其扩展遵循的优化原则是（）。

A、尽可能增加非线性

B、使行为更接近线性以便优化

C、最大化激活函数的导数

D、最小化计算复杂度

答案：B

题目难度：中等

关联知识点：整流线性单元及其扩展

123.在引入整流线性单元之前，常用的激活函数包括（）。

A、logistic sigmoid与双曲正切函数

B、线性函数与指数函数

C、绝对值函数与阶梯函数

D、高斯函数与均匀函数

答案：A

题目难度：中等

关联知识点：logistic sigmoid与双曲正切函数

124. sigmoid 单元在大部分定义域内饱和，当

取绝对值很大的正值时，其输出（）。

A. 趋近于 0

B. 趋近于 0.5

C. 趋近于 1

D. 无确定值

答案：C

题目难度：中等

关联知识点：logistic sigmoid与双曲正切函数

125. sigmoid 单元的饱和性对基于梯度的学习产生的影响是（）。

A、使学习更容易

B、无影响

C、使学习变得非常困难

D、加快收敛速度

答案：C

题目难度：中等

关联知识点：logistic sigmoid与双曲正切函数

126.在预测二值型变量取值为 1 的概率时，sigmoid 单元常作为（）。

A、输入单元

B、隐藏单元

C、输出单元

D、偏置单元

答案：C

题目难度：中等

关联知识点：logistic sigmoid与双曲正切函数

127.对于深层神经网络，若使用 sigmoid 激活函数，以下哪种情况可缓解其饱和性对学习的阻碍（）。

A、增加网络层数

B、使用特殊的初始化方法

C、选择合适的代价函数

D、增大学习率

答案：C

题目难度：中等

关联知识点：logistic sigmoid与双曲正切函数

128.以下关于 sigmoid 与双曲正切函数在不同网络类型中应用的说法，正确的是（）。

A、两者都常用于前馈网络隐藏层

B、sigmoid 函数在循环网络等场景更常见

C、双曲正切函数仅用于输出层

D、两者都不适用于自编码器

答案：B

题目难度：中等

关联知识点：logistic sigmoid与双曲正切函数

129.与分段线性单元相比，sigmoid 单元的主要劣势在于（）。

A、计算复杂度高

B、无法处理非线性问题

C、饱和性影响梯度学习

D、不满足可微性要求

答案：C

题目难度：中等

关联知识点：logistic sigmoid与双曲正切函数

130.作者在 MNIST 数据集上测试使用h=cos(W

+b)作为激活函数的前馈网络，其误差率（）。

A、大于 10%

B、小于 1%

C、约为 5%

D、无明确提及

答案：B

题目难度：中等

关联知识点：其他隐藏单元

131.新的隐藏单元类型通常在何种情况下会被发布？（）。

A、计算复杂度低于现有单元

B、具有独特数学形式

C、能明确提供显著改进

D、被广泛应用于常见任务

答案：C

题目难度：中等

关联知识点：其他隐藏单元

132.softmax单元有时用作隐藏单元，主要用于（）。

A、处理连续型变量

B、学习操作内存的高级结构

C、增强网络非线性能力

D、简化计算过程

答案：B

题目难度：中等

关联知识点：其他隐藏单元

133.根据Glorot等人研究，在函数近似方面，与整流线性单元相比，softplus 函数（）。

A、结果更好

B、结果相当

C、结果较差

D、适用场景更多

答案：C

题目难度：中等

关联知识点：其他隐藏单元

134.以下关于隐藏单元设计的说法，正确的是（）。

A、已发现所有可能有用的隐藏单元类型

B、新隐藏单元类型研发无需考虑计算成本

C、隐藏单元设计主要依赖理论推导

D、是一个活跃且持续探索的研究领域

答案：D

题目难度：中等

关联知识点：其他隐藏单元

135.在神经网络架构中，层通常以何种方式组织？（）

A、随机连接

B、链式结构，每层是前一层的函数

C、并行结构，各层独立计算

D、分层后每层功能相同

答案：B

题目难度：中等

关联知识点：其他隐藏单元

136.万能近似定理表明，一个前馈神经网络若具有线性输出层和至少一层含 “挤压” 性质激活函数（如 logistic sigmoid）的隐藏层，在何种条件下可近似任意函数？（）

A、给予足够多的隐藏单元

B、采用特定的优化算法

C、输入数据为特定分布

D、网络深度达到一定值

答案：A

题目难度：中等

关联知识点：万能近似性质和深度

137.对于定义在Rn的有界闭集上的函数，若其为（），则可用神经网络近似，这符合万能近似定理相关特性。

A. 连续函数

B. 离散函数

C. 可微函数

D. 单调函数

答案：A

题目难度：中等

关联知识点：万能近似性质和深度

138. Barron 提供了单层网络近似一大类函数所需大小的界，在最坏情况下，可能需要隐藏单元数量为（）。

A、线性数量

B、多项式数量

C、指数数量

D、对数数量

答案：C

题目难度：中等

关联知识点：万能近似性质和深度

139. Montufar等人指出深度整流网络描述线性区域数量与深度呈（）关系。

A、线性

B、多项式

C、指数

D、对数

答案：C

题目难度：中等

关联知识点：万能近似性质和深度

140.浅层模型在某些情况下所需隐藏单元数量是输入维度n的（）。

A、线性级

B、多项式级

C、指数级

D、对数级

答案：C

题目难度：中等

关联知识点：万能近似性质和深度

141.以下哪种激活函数所属的网络被证明具有万能近似性质（）？

A、线性函数

B、整流线性单元

C、指数函数

D、均匀分布函数

答案：B

题目难度：中等

关联知识点：万能近似性质和深度

142.若前馈网络能表示某函数，但学习失败，原因可能是（）。

A、优化算法找不到期望函数参数值或过拟合

B、网络深度不够或宽度过大

C、数据量太少或噪声太大

D、激活函数选择不当或计算资源不足

答案：A

题目难度：中等

关联知识点：万能近似性质和深度

143.根据文中观点，深度模型泛化更好可能源于其符合何种关于学习函数的信念？（）

A、函数是简单函数组合或多步骤计算机程序

B、函数是线性函数叠加或随机函数组合

C、函数具有对称性或周期性

D、函数是高维空间映射或离散函数变换

答案：A

题目难度：中等

关联知识点：万能近似性质和深度

144.万能近似定理对激活函数的适用范围（）。

A、仅适用于logisitic sigmoid等少数函数

B、适用于包括整流线性单元在内的更广泛类别

C、仅限于可微且单调递增函数

D、仅针对特定任务自定义的函数

答案：B

题目难度：中等

关联知识点：万能近似性质和深度

145.在计算图中，每个节点表示（）。

A、一个操作

B、一个函数

C、一个变量

D、一个计算步骤

答案：C

题目难度：中等

关联知识点：计算图

146.为了形式化计算图，引入的操作是指（）。

A、一个或多个变量的复杂函数

B、一个或多个变量的简单函数

C、一个变量的复杂函数

D、一个变量的简单函数

答案：B

题目难度：中等

关联知识点：计算图

147.计算图中，如果变量 y 是变量 x 通过一个操作计算得到的，那么（）。

A、画一条从 y 到 x 的有向边

B、画一条从 x 到 y 的无向边

C、画一条从 x 到 y 的有向边

D、不需要画边

答案：C

题目难度：中等

关联知识点：计算图

148.在计算图的软件实现中，通常支持（）操作。

A、仅单个输入单个输出

B、多个输入单个输出

C、单个输入多个输出

D、多个输入多个输出

答案：D

题目难度：中等

关联知识点：计算图

149.计算图语言有助于（）。

A、更精确地描述反向传播算法

B、提高计算效率

C、简化神经网络结构

D、直接优化代价函数

答案：A

题目难度：中等

关联知识点：计算图

150.在计算图中，操作的输出变量（）。

A、只能是标量

B、可以是多种类型，如向量、矩阵等

C、必须是与输入变量相同类型

D、不能是张量

答案：B

题目难度：中等

关联知识点：计算图

151.以下关于计算图的说法，正确的是（）。

A、每个节点只能有一个输入边

B、每个节点只能有一个输出边

C、节点之间的边可以是双向的

D、边表示变量之间的计算依赖关系

答案：D

题目难度：中等

关联知识点：计算图

152.计算图的主要目的是（）。

A、可视化计算过程

B、便于计算梯度

C、组织和表示计算过程

D、优化计算资源分配

答案：C

题目难度：中等

关联知识点：计算图

153. 图(d) 中对线性回归模型权重 w 实施多个操作的例子表明计算图（）。

A、只能对每个变量实施一个操作

B、对变量实施操作的数量有限制

C、可以对变量实施多个操作

D、对变量的操作顺序必须固定

答案：C

题目难度：中等

关联知识点：计算图

154.在将链式法则应用于张量时，我们可想象在运行反向传播前将张量变平为向量，计算向量值梯度后再（）。

A、直接使用该向量作为结果

B、舍弃部分向量元素

C、将向量扩展为更高维张量

D、将该梯度重新构造成一个张量

答案：D

题目难度：中等

关联知识点：微积分中的链式法则

155.在链式法则中，函数复合的顺序对计算结果（）。

A、没有影响

B、有一定影响，但可通过调整计算顺序忽略

C、有重要影响，必须按照正确顺序计算

D、仅在特定情况下有影响

答案：C

题目难度：中等

关联知识点：微积分中的链式法则

156.反向传播算法中运用链式法则计算梯度，其计算顺序的设计主要是为了（）。

A、提高计算的准确性

B、简化计算过程，提高计算效率

C、适应不同的神经网络结构

D、便于理解和实现

答案：B

题目难度：中等

关联知识点：微积分中的链式法则

157.与普通的求导法则相比，链式法则的独特之处在于（）。

A、适用于多元函数

B、可以处理复合函数

C、计算过程更简便

D、不需要函数连续可微

答案：B

题目难度：中等

关联知识点：微积分中的链式法则

158.以下关于链式法则在实际应用中的说法，正确的是（）。

A、仅在数学理论推导中有用，实际计算中很少使用

B、主要用于物理领域的计算，在其他领域应用较少

C、在机器学习等多个领域有广泛应用，用于计算复杂函数关系中的导数

D、只适用于简单函数组合，复杂情况无法处理

答案：C

题目难度：中等

关联知识点：微积分中的链式法则

159.若函数

和

在链式法则应用中不满足可微条件，那么（）。

A、链式法则仍然可以近似计算导数

B、无法使用链式法则计算导数

C、需要对函数进行特殊处理后再使用链式法则

D、链式法则计算结果不准确但仍有参考价值

答案：B

题目难度：中等

关联知识点：微积分中的链式法则

160.在反向传播算法中，计算梯度时考虑子表达式重复问题的主要原因是什么？（）

A、为了增加计算的复杂性

B、因为子表达式重复会导致计算结果错误

C、避免计算资源的浪费或在存储受限情况下选择合适的计算方式

D、为了提高算法的稳定性

答案：C

题目难度：中等

关联知识点：递归地使用链式法则来实现反向传播

161.当使用反向传播计算梯度来实现参数的梯度下降时，对应u(n)什么？（）

A、模型的输入特征

B、单个或者小批量实例的代价函数

C、模型的参数

D、神经网络的隐藏层输出

答案：B

题目难度：中等

关联知识点：递归地使用链式法则来实现反向传播

162.在反向传播算法中，子图B中的计算顺序与图G中的计算顺序有什么关系？（）

A、完全相同

B、完全相反

C、部分相同

D、没有关系

答案：B

题目难度：中等

关联知识点：递归地使用链式法则来实现反向传播

163.反向传播算法中，执行反向传播所需的计算量与图中的什么成比例？（）

A、节点的数量

B、边的数量

C、层的数量

D、输入变量的数量

答案：B

题目难度：中等

关联知识点：递归地使用链式法则来实现反向传播

164.反向传播算法大约对图中的每个节点执行一个什么操作来减少公共子表达式的数量？（）

A、Hessian乘积

B、Jacobian乘积

C、梯度乘积

D、向量乘积

答案：B

题目难度：中等

关联知识点：递归地使用链式法则来实现反向传播

165.在全连接 MLP 中，前向传播的作用是什么？（）

A、计算模型的预测输出

B、计算损失函数关于参数的梯度

C、调整模型的参数

D、初始化模型的参数

答案：A

题目难度：中等

关联知识点：全连接MLP 中的反向传播计算

166.算法6.3中，计算图的输入是什么？（）

A、训练样本的标签

B、神经网络的参数

C、向量

D、损失函数的值

答案：C

题目难度：中等

关联知识点：全连接MLP 中的反向传播计算

167.在全连接 MLP 的反向传播计算中，反向传播算法的计算成本与什么成比例？（）

A、模型的层数

B、图中边的数量

C、训练样本的数量

D、节点的数量

答案：B

题目难度：中等

关联知识点：全连接MLP 中的反向传播计算

168.全连接 MLP 中，反向传播计算的目的是什么？（）

A、计算损失函数的值

B、计算模型的准确率

C、计算损失函数关于参数的梯度，用于更新参数

D、计算模型的预测输出

答案：C

题目难度：中等

关联知识点：全连接MLP 中的反向传播计算

169.在算法 6.2 中，grad_table 的作用是什么？（）

A、存储前向传播的计算结果

B、存储反向传播计算好的导数

C、存储训练样本的数据

D、存储模型的参数

答案：B

题目难度：中等

关联知识点：全连接MLP 中的反向传播计算

170.算法 6.3 和算法 6.4 的特点是什么？（）

A、复杂且适用于各种问题

B、简单但适用于各种问题

C、简单而直观，但专门针对特定问题

D、复杂且专门针对特定问题

答案：C

题目难度：中等

关联知识点：全连接MLP 中的反向传播计算

171.在全连接 MLP 的反向传播计算中，以下哪个操作是在反向传播过程中执行的？（）

A、计算节点的输出值

B、更新模型的参数

C、计算偏导数并进行相关计算以得到梯度

D、选择合适的优化算法

答案：C

题目难度：中等

关联知识点：全连接MLP 中的反向传播计算

172.算法 6.2 中，反向传播计算的顺序是怎样的？（）

A、从第一个节点到最后一个节点

B、从最后一个节点到第一个节点

C、随机顺序

D、同时计算所有节点

答案：B

题目难度：中等

关联知识点：全连接MLP 中的反向传播计算

173.在全连接 MLP 的反向传播计算中，反向传播图中的节点与前向图中的节点有什么关系？（）

A、完全不同

B、部分相同

C、反向传播图中的节点是前向图中节点的子集

D、反向传播图中的每个节点都与前向图中的节点相关联，通过计算导数连接

答案：D

题目难度：中等

关联知识点：全连接MLP 中的反向传播计算

174.以下关于符号表示的说法，正确的是？（）

A、只用于计算图，不用于代数表达式

B、是对具有特定值的变量进行操作

C、代数表达式和计算图都可采用符号表示

D、与数值计算无关

答案：C

题目难度：中等

关联知识点：符号到符号的导数

175.符号到数值的微分方法用于哪些库中？（）

A、Theano

B、TensorFlow

C、Torch 和 Caffe

D、所有深度学习库

答案：C

题目难度：中等

关联知识点：符号到符号的导数

176.采用符号到符号的导数方法时，以下说法正确的是？（）

A、不能对导数再次求导得到高阶导数

B、导数可以使用与原始表达式不同的语言来描述

C、导数是另外一张计算图，可以再次运行反向传播求高阶导数

D、不需要构建计算图

答案：C

题目难度：中等

关联知识点：符号到符号的导数

177.在符号到符号的导数方法中，通用图形求值引擎何时对节点进行求值？（）

A、当节点被创建时

B、当节点的所有子节点的值都可用时

C、当节点的所有父节点的值都可用时

D、随机时刻

答案：C

题目难度：中等

关联知识点：符号到符号的导数

178.以下哪种方法的关键区别在于是否显示计算图？（）

A、前向传播和反向传播

B、符号到数值的微分和符号到符号的导数

C、不同的优化算法

D、不同的损失函数计算方法

答案：B

题目难度：中等

关联知识点：符号到符号的导数

179.符号到数值的微分方法在计算导数时，需要什么作为输入？（）

A、计算图和一组用于图的输入的符号

B、计算图和一组用于图的输入的数值

C、仅计算图

D、仅一组用于图的输入的数值

答案：B

题目难度：中等

关联知识点：符号到符号的导数

180.当我们实际使用或训练神经网络时，给符号赋予特定值的操作发生在哪个阶段？（）

A、构建计算图阶段

B、前向传播阶段

C、反向传播阶段

D、优化模型阶段

答案：B

题目难度：中等

关联知识点：符号到符号的导数

181.以下关于计算图和符号表示关系的描述，正确的是？（）

A、计算图只能用符号表示，不能用数值表示

B、符号表示是计算图的一种特殊形式

C、计算图和符号表示是完全独立的概念

D、计算图可以基于符号表示构建，用于计算导数等操作

答案：D

题目难度：中等

关联知识点：符号到符号的导数

182.在深度学习中，使用符号到符号的导数方法的主要优点不包括以下哪项？（）

A、导数可使用与原始表达式相同语言描述

B、能方便地计算高阶导数

C、计算效率比符号到数值的微分方法高

D、可避免精确指明操作计算时刻

答案：C

题目难度：中等

关联知识点：符号到符号的导数

183.对于计算图中的变量V，get_operation (V) 的作用是什么？（）

A、返回计算V的操作的结果

B、返回用于计算V的操作，代表计算图中流入V的边

C、返回计算图中V的所有子节点

D、返回计算图中V的所有父节点

答案：B

题目难度：中等

关联知识点：一般化的反向传播

184.反向传播算法中，op.bprop方法在处理输入变量时应怎么做？（）

A、根据输入变量的实际情况返回正确的导数

B、总是返回作为导数

C、总是返回作为导数

D、总是假装所有输入彼此不同并返回相应的导数，即使它们相同

答案：D

题目难度：中等

关联知识点：一般化的反向传播

185.反向传播算法的软件实现中，通常由谁提供操作和其 bprop 方法？（）

A、深度学习软件库的用户

B、深度学习软件库本身

C、构建反向传播新实现的软件工程师

D、需要向现有库添加操作的高级用户

答案：B

题目难度：中等

关联知识点：一般化的反向传播

186.计算图中，一个操作实际可能包含什么？（）

A、许多算术运算

B、一个算术运算

C、一个逻辑运算

D、一个比较运算

答案：A

题目难度：中等

关联知识点：一般化的反向传播

187.反向传播算法可以看作一种表填充算法，这种策略被称为？（）

A、贪心算法

B、动态规划

C、分治算法

D. 回溯算法

答案：B

题目难度：中等

关联知识点：一般化的反向传播

188.以下关于反向传播算法计算成本的说法，正确的是？（）

A、计算成本只与节点数量有关

B、计算成本只与边的数量有关

C、计算成本与节点数量和边的数量都有关

D、计算成本与节点数量和边的数量都无关

答案：C

题目难度：中等

关联知识点：一般化的反向传播

189.在使用反向传播算法训练多层感知机（MLP）时，为了简化表示，在示例模型中不使用的是（）。

A、偏置

B、激活函数

C、权重矩阵

D、输出层

答案：A

题目难度：中等

关联知识点：实例：用于MLP 训练的反向传播

190.在单层 MLP 示例中，总代价函数包含交叉熵和权重衰减项，权重衰减项的系数为（）。

A、1

B、2

C、λ

D、1/2

答案：C

题目难度：中等

关联知识点：实例：用于MLP 训练的反向传播

191.在 MLP 的前向传播阶段，计算成本主要来源于（）。

A、矩阵乘法

B、激活函数计算

C、偏置计算

D、交叉熵计算

答案：A

题目难度：中等

关联知识点：实例：用于MLP 训练的反向传播

192.在反向传播阶段，计算成本主要来源于（）。

A、矩阵乘法

B、激活函数计算

C、偏置计算

D、交叉熵计算

答案：A

题目难度：中等

关联知识点：实例：用于MLP 训练的反向传播

193.在 MLP 计算中，算法主要的存储成本是存储（）。

A、权重矩阵

B、输入到隐藏层的非线性中的值

C、偏置

D、输出层的值

答案：B

题目难度：中等

关联知识点：实例：用于MLP 训练的反向传播

194.在单层 MLP 示例中，用于计算目标 y 和未归一化对数概率定义的概率分布间交叉熵的操作是（）。

A、relu

B、matmul

C、cross_entropy

D、sum

答案：C

题目难度：中等

关联知识点：实例：用于MLP 训练的反向传播

195.在神经网络中，通常不对偏置做正则惩罚的原因是（）。

A、偏置对模型影响小

B、拟合偏置所需数据少且正则化偏置易导致欠拟合

C、偏置不参与模型计算

D、偏置无法正则化

答案：B

题目难度：中等

关联知识点：L2 参数正则化

196.在神经网络中，L2参数范数惩罚又被称为（）。

A、岭回归

B、权重衰减

C、Tikhonov 正则

D、以上都是

答案：D

题目难度：中等

关联知识点：L2 参数正则化

197.加入权重衰减后，在每步执行通常的梯度更新之前会（）。

A、扩展权重向量

B、收缩权重向量

C、不改变权重向量

D、随机改变权重向量

答案：B

题目难度：中等

关联知识点：L2 参数正则化

198.L2正则化能让学习算法 “感知”到具有较高方差的输入

，因此与输出目标的协方差较小的特征的权重将会（）。

A、增大

B、不变

C、收缩

D、随机变化

答案：C

题目难度：中等

关联知识点：L2 参数正则化

199.与L2正则化相比，L1正则化会产生（）。

A、更平滑的解

B、更复杂的解

C、更稀疏的解

D、更密集的解

答案：C

题目难度：中等

关联知识点：L1 参数正则化

200.著名的 LASSO 模型将L1惩罚和（）结合，并使用最小二乘代价函数。

A、逻辑回归模型

B、线性模型

C、神经网络模型

D、决策树模型

答案：B

题目难度：中等

关联知识点：L1 参数正则化

201.假设在一个线性回归模型中，使用L1正则化后，某特征对应的参数变为0，这意味着（）。

A、该特征对模型输出完全没有影响

B、该特征与其他特征存在高度相关性

C、该特征在模型中的重要性降低，但可能仍有间接影响

D、模型出现了错误，正常情况下参数不应为0

答案：C

题目难度：中等

关联知识点：L1 参数正则化

202.在L1正则化中，若a逐渐增大，对于参数向量w的影响是（）。

A、所有参数值会逐渐增大

B、所有参数值会逐渐减小

C、更多的参数值会趋向于0

D、对参数值没有影响

答案：C

题目难度：中等

关联知识点：L1 参数正则化

203.关于a与约束区域大小的关系，以下说法正确的是（）。

A、较大的a，将得到一个较大的约束区域

B、较小的a，将得到一个较小的约束区域

C、较大的a，将得到一个较小的约束区域

D、a与约束区域大小无关

答案：C

题目难度：中等

关联知识点：作为约束的范数惩罚

204.有时希望使用显式的限制而不是惩罚，原因不包括以下哪项（）。

A、知道合适的k值，不想花时间寻找对应的a值

B、惩罚可能导致目标函数非凸，使算法陷入局部极小

C、显式约束能增加优化过程的稳定性

D、显式约束计算复杂度更低

答案：D

题目难度：中等

关联知识点：作为约束的范数惩罚

205. Hinton 等人尤其推荐的策略是约束神经网络层权重矩阵（）。

A、整个权重矩阵的 Frobenius 范数

B、每列的范数

C、每行的范数

D、对角线元素的范数

答案：B

题目难度：中等

关联知识点：作为约束的范数惩罚

206.当数据生成分布在一些方向上没有差异或观察到的方差较小时，矩阵XTX可能是（）。

A、正定的

B、负定的

C、奇异的

D、非奇异的

答案：C

题目难度：中等

关联知识点：作为约束的范数惩罚

207.对于线性可分问题的逻辑回归，若权重向量w能实现完美分类，在没有正则化时，迭代优化算法会（）。

A、很快收敛到最优解

B、收敛到局部最优解

C、持续增加w的大小

D、使w的大小保持不变

答案：C

题目难度：中等

关联知识点：作为约束的范数惩罚

208.在解决欠定问题时，大多数形式的正则化能够（）。

A、保证迭代方法收敛

B、使迭代方法更快收敛

C、使迭代方法收敛到全局最优解

D、对迭代方法的收敛性没有影响

答案：A

题目难度：中等

关联知识点：作为约束的范数惩罚

209.在机器学习中，当矩阵XTX奇异时，以下哪些方法会失效（）。

A、逻辑回归

B、线性回归和 PCA

C、决策树

D、神经网络

答案：B

题目难度：中等

关联知识点：正则化和欠约束问题

210.数据生成分布在一些方向上没有差异或因例子较少在一些方向上没有观察到方差时，矩阵XTX会（）。

A、正定

B、负定

C、奇异

D、非奇异

答案：C

题目难度：中等

关联知识点：正则化和欠约束问题

211.对于应用于线性可分问题的逻辑回归，在没有正则化时，迭代优化算法会（）。

A、收敛到最优解

B、收敛到局部最优解

C、持续增加权重向量w的大小

D、使权重向量w的大小保持不变

答案：C

题目难度：中等

关联知识点：正则化和欠约束问题

212.在实践中，数值实现的梯度下降最终会达到导致数值溢出的超大权重，此时的行为取决于（）。
A、数据的分布
B、算法的选择
C、程序员如何处理这些非数字的值
D、模型的复杂度
答案：C

题目难度：中等

关联知识点：正则化和欠约束问题

213.大多数形式的正则化能够保证应用于欠定问题的迭代方法（）。

A、收敛

B、发散

C、快速收敛

D、收敛到全局最优解

答案：A

题目难度：中等

关联知识点：正则化和欠约束问题

214.当似然的斜率等于权重衰减的系数时，权重衰减将（）。

A、加速梯度下降

B、阻止梯度下降继续增加权重的大小

C、使权重大小变为零

D、不影响梯度下降

答案：B

题目难度：中等

关联知识点：正则化和欠约束问题

215.使用正则化解决欠定问题的想法在以下哪个领域也有用（）。

A、图像处理

B、自然语言处理

C、基本线性代数问题

D、计算机视觉

答案：C

题目难度：中等

关联知识点：正则化和欠约束问题

216. Hinton 等人推荐的策略是约束神经网络层权重矩阵（）。

A、每行的范数

B、整个权重矩阵的 Frobenius 范数

C、每列的范数

D、对角线元素的范数

答案：C

题目难度：中等

关联知识点：正则化和欠约束问题

217.使机器学习模型泛化得更好的最佳方法是（）。
A、使用更复杂的模型
B、增加正则化强度
C、使用更多的数据进行训练
D、优化超参数
答案：C

题目难度：中等

关联知识点：数据集增强

218.对于以下哪种任务，创建新的假数据相对困难（）。

A、分类

B、密度估计

C、对象识别

D、语音识别

答案：B

题目难度：中等

关联知识点：数据集增强

219.在对象识别任务中，以下哪种操作通常可有效改善泛化（）。

A、水平翻转图像

B、旋转图像 180°

C、沿训练图像每个方向平移几个像素

D、改变图像颜色

答案：C

题目难度：中等

关联知识点：数据集增强

220.在光学字符识别任务中，以下哪种操作不适合作为数据集增强方式（）。

A、垂直翻转图像

B、水平翻转图像

C、缩放图像

D、旋转图像 90°

答案：B

题目难度：中等

关联知识点：数据集增强

221.向神经网络的输入层注入噪声可被看作是（）。

A、一种正则化方式

B、一种优化算法

C、一种数据预处理方法

D、一种数据集增强方式

答案：D

题目难度：中等

关联知识点：数据集增强

222.以下哪种任务中，数据集增强被证明是有效的（）。

A、图像分类

B、语音识别

C、密度估计

D、选项 A 和 B

答案：D

题目难度：中等

关联知识点：数据集增强

223.在比较机器学习算法性能时，关于数据集增强以下说法正确的是（）。

A、数据集增强对算法性能没有影响

B、只需比较算法本身，无需考虑数据集增强

C、应确保对比算法使用相同的数据集增强方案

D、数据集增强总是能提高算法性能

答案：C

题目难度：中等

关联知识点：数据集增强

224.在神经网络中，向隐藏单元施加噪声可以被看作是在（）上进行的数据集增强。

A、输入层

B、输出层

C、多个抽象层

D、单个隐藏层

答案：C

题目难度：中等

关联知识点：数据集增强

225.对于某些模型，向输入添加方差极小的噪声等价于（）。

A、对权重施加范数惩罚

B、增加数据集大小

C、调整超参数

D、改变模型结构

答案：A

题目难度：中等

关联知识点：数据集增强

226.在循环神经网络中，向权重添加噪声主要用于（）。

A、数据集增强

B、正则化模型

C、加速训练

D、提高模型精度

答案：B

题目难度：中等

关联知识点：数据集增强

227.为避免标签错误对学习的影响，一种方法是（）。

A、去除错误标签的数据

B、对标签上的噪声进行建模

C、增加训练数据量

D、调整模型结构

答案：B

题目难度：中等

关联知识点：向输出目标注入噪声

228.使用 softmax 函数和明确目标的最大似然学习可能永远不会收敛，原因是 softmax 函数（）。

A、计算复杂度高

B、无法真正预测0概率或1概率

C、对噪声敏感

D、容易过拟合

答案：B

题目难度：中等

关联知识点：向输出目标注入噪声

229.在标签平滑中，使用非确切目标的输出时，可采用的损失函数是（）。

A、均方误差

B、平均绝对误差

C、标准交叉熵损失

D、铰链损失

答案：C

题目难度：中等

关联知识点：向输出目标注入噪声

230.以下关于标签平滑的说法错误的是（）。

A、能够防止模型追求确切概率

B、会影响模型学习正确分类

C、自 20 世纪 80 年代就已被使用

D、在现代神经网络中仍有显著特色

答案：B

题目难度：中等

关联知识点：向输出目标注入噪声

231.在深度学习中，参数共享的显著优点是什么？

A、增加模型的复杂度

B、提高模型的训练速度

C、减少模型所占用的内存

D、增强模型的泛化能力

答案：C

题目难度：中等

关联知识点：卷积神经网络

232.卷积神经网络中参数共享的作用是什么？

A、增加特征数量

B、减少计算量

C、提高图像分辨率

D、改变图像的颜色模式

答案：B

题目难度：中等

关联知识点：卷积神经网络

233.以下哪种方法是正则化参数使其彼此接近的方式？

A、数据增强

B、提前终止

C、参数范数惩罚

D、噪声鲁棒性

答案：C

题目难度：中等

关联知识点：卷积神经网络

234.自然图像的哪些统计属性使得卷积神经网络采用参数共享？

A、颜色分布不变性

B、对比度不变性

C、对转换不变性

D、亮度不变性

答案：C

题目难度：中等

关联知识点：卷积神经网络

235.权重衰减直接惩罚的对象是什么？

A、模型的输出

B、模型的输入

C、模型参数

D、激活单元

答案：C

题目难度：中等

关联知识点：卷积神经网络

236.与正则化参数使其接近相比，参数共享在内存方面的优势体现在哪里？

A、减少计算量

B、增加存储容量

C、减少参数存储

D、提高数据读取速度

答案：C

题目难度：中等

关联知识点：卷积神经网络

237.卷积神经网络通过什么方式考虑自然图像的特性？

A、改变卷积核大小

B. 调整池化步长

C. 在图像多个位置共享参数

D. 增加网络层数

答案：C

题目难度：中等

关联知识点：卷积神经网络

238.在正则化方法中，哪种方法可以显著减少卷积神经网络模型所占用的内存？

A、数据集增强

B、参数范数惩罚

C、提前终止

D、参数共享

答案：D

题目难度：中等

关联知识点：卷积神经网络

239.除了参数共享，卷积神经网络还具有什么优点？

A、自动特征提取

B、手动特征选择

C、固定特征映射

D、随机特征生成

答案：A

题目难度：中等

关联知识点：卷积神经网络

240.稀疏表示策略间接惩罚的对象是什么？

A、模型的输出

B、模型的输入

C、模型参数

D、激活单元

答案：C

题目难度：中等

关联知识点：卷积神经网络

241.在深度学习中，经验风险最小化容易导致什么问题？

A、欠拟合

B、计算复杂度低

C、过拟合

D、模型泛化能力强

答案：C

题目难度：中等

关联知识点：批量算法和小批量算法

242.以下哪种情况会促使我们从小数目样本中获得梯度的统计估计？

A、训练集样本完全独立

B、训练集样本高度相关

C、训练集样本数量少

D、训练集样本分布均匀

答案：B

题目难度：中等

关联知识点：批量算法和小批量算法

243.使用整个训练集的优化算法被称为什么？

A、随机梯度算法

B、小批量随机梯度算法

C、批量梯度算法

D、在线梯度算法

答案：C

题目难度：中等

关联知识点：批量算法和小批量算法

244.随机方法的典型示例是什么？

A、批量梯度下降

B、随机梯度下降

C、在线梯度下降

D、确定性梯度下降

答案：B

题目难度：中等

关联知识点：批量算法和小批量算法

245.小批量随机梯度下降方法中，小批量的大小通常不由以下哪个因素决定？

A、梯度估计的精确性

B、硬件架构

C、数据的分布

D、正则化效果

答案：C

题目难度：中等

关联知识点：批量算法和小批量算法

246.在深度学习中，为什么很少使用经验风险最小化？

A、计算复杂度低

B、容易导致欠拟合

C、优化目标难以实现

D、导数容易计算

答案：C

题目难度：中等

关联知识点：批量算法和小批量算法

247.以下关于代理损失函数的说法，错误的是？

A、可以作为原目标的代理

B、不具备任何优点

C、能使模型估计给定样本的类别的条件概率

D、可以从训练数据中抽取更多信息

答案：B

题目难度：中等

关联知识点：批量算法和小批量算法

248.小批量随机梯度下降方法中，样本顺序打乱的目的是什么？

A、增加计算复杂度

B、提高模型的泛化能力

C、减少样本的相关性

D、使样本更难处理

答案：C

题目难度：中等

关联知识点：批量算法和小批量算法

249.在高维空间中，对于多类随机函数，以下关于局部极小值和鞍点的说法正确的是？

A、局部极小值很常见，鞍点很罕见

B、局部极小值和鞍点都很常见

C、局部极小值很罕见，鞍点很常见

D、局部极小值和鞍点都很罕见

答案：C

题目难度：中等

关联知识点：高原、鞍点和其他平坦区域

250.鞍点附近的点有什么特点？

A、所有点的代价都比鞍点大

B、所有点的代价都比鞍点小

C、某些点比鞍点代价大，某些点比鞍点代价小

D、所有点的代价都与鞍点相同

答案：C

题目难度：中等

关联知识点：高原、鞍点和其他平坦区域

251.对于只使用梯度信息的一阶优化算法，鞍点附近的梯度通常是怎样的？

A、很大

B、非常小

C、为零

D、不确定

答案：B

题目难度：中等

关联知识点：高原、鞍点和其他平坦区域

252.在神经网络中，不具非线性的浅层自编码器有哪些特点？

A、只有全局极小值

B、只有鞍点

C、有全局极小值和鞍点，没有代价比全局极小值更大的局部极小值

D、有各种类型的临界点

答案：C

题目难度：中等

关联知识点：高原、鞍点和其他平坦区域

253.以下哪种方法旨在寻求梯度为零的点？

A、梯度下降

B、随机梯度下降

C、牛顿法

D、梯度截断

答案：C

题目难度：中等

关联知识点：高原、鞍点和其他平坦区域

254.在高维空间中，具有高代价的临界点更有可能是？

A、局部极小值

B、鞍点

C、局部极大值

D、全局极小值

答案：B

题目难度：中等

关联知识点：高原、鞍点和其他平坦区域

255.二阶优化的无鞍牛顿法是为了解决什么问题而提出的？

A、局部极小值问题

B、鞍点问题

C、悬崖问题

D、梯度爆炸问题

答案：B

题目难度：中等

关联知识点：高原、鞍点和其他平坦区域

256.从优化角度看，与鞍点相似的是？

A、局部极小值

B、局部极大值

C、全局极小值

D、平坦区域

答案：B

题目难度：中等

关联知识点：高原、鞍点和其他平坦区域

257.在神经网络代价函数可视化中，突出的鞍点附近通常是什么情况？

A、代价函数陡峭，权重变化大

B、代价函数平坦，权重变化大

C、代价函数陡峭，权重为零

D、代价函数平坦，权重为零

答案：D

题目难度：中等

关联知识点：高原、鞍点和其他平坦区域

258.对于一般的优化问题，宽而平坦的区域可能对应着目标函数怎样的值？

A、一定是全局极小值

B、一定是全局极大值

C、较高的值

D、较低的值

答案：C

题目难度：中等

关联知识点：高原、鞍点和其他平坦区域

259.在卷积运算中，通常用什么符号表示卷积？

A、+

B、-

C、*

D、/

答案：C

题目难度：中等

关联知识点：卷积运算

260.在激光传感器追踪宇宙飞船位置的例子中，用于加权平均的函数 w 必须满足什么条件？

A、是任意函数

B、是有效概率密度函数且参数为负值时取值为 0

C、是线性函数

D、是常数函数

答案：B

题目难度：中等

关联知识点：卷积运算

261.在卷积网络术语中，卷积的第二个参数通常叫做什么？

A、输入

B、输出

C、核函数

D、特征映射

答案：C

题目难度：中等

关联知识点：卷积运算

262.在机器学习应用中，输入和核通常是什么数据结构？

A、向量

B、矩阵

C、张量

D、列表

答案：C

题目难度：中等

关联知识点：卷积运算

263.在二维卷积运算中，卷积运算可交换性出现的原因是什么？

A、输入和核的大小相同

B、对核进行了翻转

C、计算顺序的改变

D、输入和核都是对称的

答案：B

题目难度：中等

关联知识点：卷积运算

264.许多机器学习库实现的与卷积类似但没有对核进行翻转的函数是什么？

A、自相关函数

B、互相关函数

C、卷积函数

D、加权平均函数

答案：B

题目难度：中等

关联知识点：卷积运算

265.离散卷积可以看作哪种矩阵的乘法？

A、对角矩阵

B、单位矩阵

C、Toeplitz 矩阵

D、对称矩阵

答案：C

题目难度：中等

关联知识点：卷积运算

266.对于二维情况，卷积对应着一个什么矩阵？

A、双重分块循环矩阵

B、三重分块循环矩阵

C、四重分块循环矩阵

D、单分块循环矩阵

答案：A

题目难度：中等

关联知识点：卷积运算

267.在卷积运算中，核的大小通常与输入图像大小的关系是怎样的？

A、核的大小远大于输入图像的大小

B、核的大小等于输入图像的大小

C、核的大小远小于输入图像的大小

D、核的大小与输入图像的大小无关

答案：C

题目难度：中等

关联知识点：卷积运算

268.卷积运算通过以下哪种方式帮助改进机器学习系统？

A、增加参数数量

B、密集交互

C、稀疏交互、参数共享、等变表示

D、降低计算效率

答案：C

题目难度：中等

关联知识点：动机

269.在处理图像时，卷积网络的稀疏交互特征是如何实现的？

A、使用与输入大小相同的核

B、使用远小于输入大小的核

C、使用远大于输入大小的核

D、随机选择核的大小

答案：B

题目难度：中等

关联知识点：动机

270.稀疏连接在深度卷积网络中，处在网络深层的单元与输入的交互情况是怎样的？

A、与绝大部分输入直接交互

B、与少部分输入直接交互，与绝大部分输入间接交互

C、与所有输入都不交互

D、只与相邻的输入交互

答案：B

题目难度：中等

关联知识点：动机

271.参数共享在卷积神经网络中的作用是什么？

A、增加模型的存储需求

B、降低模型的存储需求

C、增加计算量

D、降低计算精度

答案：B

题目难度：中等

关联知识点：动机

272.对于卷积，参数共享的特殊形式使得神经网络层具有什么性质？

A、对旋转等变

B、对放缩等变

C、对平移等变

D、对扭曲等变

答案：C

题目难度：中等

关联知识点：动机

273.在处理图像时，卷积产生的 2 维映射表明了什么？

A、图像的颜色分布

B、某些特征在输入中出现的位置

C、图像的对比度

D、图像的亮度

答案：B

题目难度：中等

关联知识点：动机

274.在处理已经通过剪裁而使其居中的人脸图像时，关于参数共享的说法正确的是？

A、一定需要对整幅图进行参数共享

B、一定不需要对整幅图进行参数共享

C、可能不需要对整幅图进行参数共享

D、与处理普通图像时相同

答案：C

题目难度：中等

关联知识点：动机

275.传统神经网络与卷积网络在处理输入与输出连接关系上的主要区别是什么？

A、传统神经网络使用卷积运算，卷积网络使用矩阵乘法

B、传统神经网络使用稀疏连接，卷积网络使用密集连接

C、传统神经网络使用矩阵乘法，卷积网络使用卷积运算且具有稀疏交互和参数共享特点

D、传统神经网络和卷积网络没有区别

答案：C

题目难度：中等

关联知识点：动机

276.在边缘检测的例子中，使用卷积相比于矩阵乘法在计算效率上大约提高了多少倍？

A、60 倍

B、600 倍

C、6000 倍

D、60000 倍

答案：D

题目难度：中等

关联知识点：动机

277.在卷积网络中，一个典型层的第二级通常被称为什么？

A、卷积级

B、探测级

C、池化级

D、输出级

答案：B

题目难度：中等

关联知识点：池化

278.最大池化函数的作用是什么？

A、给出相邻矩形区域内的平均值

B、给出相邻矩形区域内的最小值

C、给出相邻矩形区域内的最大值

D、给出相邻矩形区域内的加权平均值

答案：C

题目难度：中等

关联知识点：池化

279.池化能够帮助输入的表示近似具有什么性质？

A、平移等变性

B、平移不变性

C、旋转等变性

D、旋转不变性

答案：B

题目难度：中等

关联知识点：池化

280.在判定图像中是否包含人脸时，池化的哪种性质有用？

A、保存特征的精确位置

B、对特征位置的高敏感性

C、对平移的不变性

D、对旋转的不变性

答案：C

题目难度：中等

关联知识点：池化

281.使用池化可以看作是增加了一个怎样的先验？

A、对少量平移敏感的先验

B、对少量平移不变的先验

C、对大量平移敏感的先验

D、对大量平移不变的先验

答案：B

题目难度：中等

关联知识点：池化

282.通过池化区域的综合统计特征来减少下一层输入，这种方法提高了网络的什么效率？

A、仅计算效率

B、仅统计效率

C、计算效率和统计效率

D、存储效率

答案：C

题目难度：中等

关联知识点：池化

283.在处理不同大小的图像分类任务时，通常通过调整池化区域的什么来实现分类层输入固定大小？

A、深度

B、步幅

C、偏置大小

D、核大小

答案：C

题目难度：中等

关联知识点：池化

284.对于在不同情况下应当使用哪种池化函数，一些理论工作给出了什么？

A、明确规定

B、一些指导

C、具体算法

D、没有任何建议

答案：B

题目难度：中等

关联知识点：池化

285.在卷积网络层中，池化函数位于第几级？

A、第一级

B、第二级

C、第三级

D、第四级

答案：C

题目难度：中等

关联知识点：池化

286.先验概率分布刻画了什么？

A、数据的分布情况

B、模型参数的分布情况

C、模型的预测结果

D、数据与模型的关系

答案：B

题目难度：中等

关联知识点：卷积与池化作为一种无限强的先验

287.强先验具有怎样的熵值？

A、较高

B、较低

C、不确定

D、与弱先验相同

答案：B

题目难度：中等

关联知识点：卷积与池化作为一种无限强的先验

288.无限强的先验对参数有什么要求？

A、允许参数自由变化

B、对参数的概率置零并禁止赋值

C、使参数服从正态分布

D、使参数具有随机性

答案：B

题目难度：中等

关联知识点：卷积与池化作为一种无限强的先验

289.把卷积网络类比成全连接网络，卷积网络对于权重的无限强先验是指什么？

A、隐藏单元的权重必须相同

B、隐藏单元的权重可以在空间上移动且相邻权重相同，其他权重为零

C、隐藏单元的权重必须为零

D、隐藏单元的权重不受限制

答案：B

题目难度：中等

关联知识点：卷积与池化作为一种无限强的先验

290.使用池化相当于引入了一个怎样的先验？

A、对少量平移敏感的先验

B、对少量平移不变的先验

C、对大量平移敏感的先验

D、对大量平移不变的先验

答案：B

题目难度：中等

关联知识点：卷积与池化作为一种无限强的先验

291.卷积和池化可能导致什么问题？

A、过拟合

B、欠拟合

C、计算量过大

D、模型不稳定

答案：B

题目难度：中等

关联知识点：卷积与池化作为一种无限强的先验

292.当一项任务依赖于保存精确的空间信息时，使用池化会怎样？

A、提高训练精度

B、不影响训练误差

C、增大训练误差

D、减小测试误差

答案：C

题目难度：中等

关联知识点：卷积与池化作为一种无限强的先验

293.对于卷积模型，统计学习表现应与什么进行比较？

A、所有模型

B、不使用卷积的模型

C、其他卷积模型

D、随机模型

答案：C

题目难度：中等

关联知识点：卷积与池化作为一种无限强的先验

294.如果一项任务涉及对输入中相隔较远信息的合并，卷积所利用的先验可能怎样？

A、非常有效

B、部分有效

C、不正确

D、不确定

答案：C

题目难度：中等

关联知识点：卷积与池化作为一种无限强的先验

295.把卷积神经网络当作具有无限强先验的全连接网络来实现会怎样？

A、提高计算效率

B、导致计算浪费

C、不影响计算量

D、减少模型参数

答案：B

题目难度：中等

关联知识点：卷积与池化作为一种无限强的先验

296.在神经网络中，提到的卷积通常是指什么？

A、标准离散卷积运算

B、由多个并行卷积组成的运算

C、单个核的卷积运算

D、仅用于图像处理的卷积运算

答案：B

题目难度：中等

关联知识点：基本卷积函数的变体

297.在多通道卷积中，什么情况下线性运算可交换？

A、输出和输入通道数相同

B、核的大小相同

C、步幅相同

D、零填充相同

答案：A

题目难度：中等

关联知识点：基本卷积函数的变体

298.下采样卷积函数中，步幅的作用是什么？

A、增加计算开销

B、提高特征提取效果

C、降低计算开销，减少输出采样

D、改变核的大小

答案：C

题目难度：中等

关联知识点：基本卷积函数的变体

299.零填充的 “有效” 卷积在 MATLAB 术语中是什么意思？

A、不使用零填充，输出大小不变

B、进行足够零填充使输出和输入大小相同

C、不使用零填充，卷积核只访问能完全包含核的位置

D、进行足够多零填充使每个像素被访问多次

答案：C

题目难度：中等

关联知识点：基本卷积函数的变体

300.哪种零填充设定可能导致边界像素欠表示？

A、有效卷积

B、相同卷积

C、全卷积

D、不使用零填充

答案：B

题目难度：中等

关联知识点：基本卷积函数的变体

301.局部连接层与卷积层的区别在于什么？

A、连接的单元数量

B、连接是否受限

C、如何共享参数

D、输入输出的维度

答案：C

题目难度：中等

关联知识点：基本卷积函数的变体

302.平铺卷积与局部连接层相比，其存储需求的增长倍数与什么有关？

A、输出映射的大小

B、核的集合大小

C、输入通道数量

D、步幅大小

答案：B

题目难度：中等

关联知识点：基本卷积函数的变体

303.在训练卷积网络时，从输出到权重的反向传播运算用于什么？

A、计算核的梯度

B、计算输入的梯度

C、计算损失函数

D、调整网络结构

答案：A

题目难度：中等

关联知识点：基本卷积函数的变体

304.对于卷积层，通常在输出的什么上设置偏置？

A、每个单元

B、每个位置

C、每个通道

D、每个映射

答案：C

题目难度：中等

关联知识点：基本卷积函数的变体

305.循环神经网络（RNN）通常在序列的什么上操作？

A、单个样本

B、小批量样本

C、整个数据集

D、固定长度序列

答案：B

题目难度：中等

关联知识点：展开计算图

306.在循环神经网络中，时间步索引表示什么？

A、仅现实世界中流逝的时间

B、仅序列中的位置

C、有时表示序列中的位置

D、与序列无关的独立变量

答案：C

题目难度：中等

关联知识点：展开计算图

307.计算图展开的操作会导致什么结果？

A、深度网络结构中的参数共享

B、深度网络结构中的参数增加

C、深度网络结构中的参数随机化

D、深度网络结构中的参数减少

答案：A

题目难度：中等

关联知识点：展开计算图

308.循环神经网络在训练时，网络通常要学会使用h(t)作为过去序列的什么？

A、无损摘要

B、有损摘要

C、精确记录

D、随机映射

答案：B

题目难度：中等

关联知识点：展开计算图

309.在统计语言建模中使用的RNN，通常根据什么预测下一个词？

A、前两个词

B、前一个词

C、整个句子

D、后一个词

答案：B

题目难度：中等

关联知识点：展开计算图

310.展开计算图的大小取决于什么？

A、模型参数数量

B、序列长度

C、输入数据维度

D、输出数据维度

答案：B

题目难度：中等

关联知识点：展开计算图

311.展开过程引入的两个主要优点中，不包括以下哪项？

A、学成的模型始终具有相同的输入大小

B、可以在每个时间步使用相同参数的相同转移函数

C、增加模型的复杂度

D、允许泛化到没有见过的序列长度

答案：C

题目难度：中等

关联知识点：展开计算图

312.仅在一个时间步的输出和下一个时间步的隐藏单元间存在循环连接的网络，其缺点是什么？

A、训练成本低

B、不能模拟通用图灵机

C、内存代价小

D、可以并行化训练

答案：B

题目难度：中等

关联知识点：导师驱动过程和输出循环网络

313.在导师驱动过程中，训练模型时在时刻t+1接收什么作为输入？

A、模型在时刻的预测值

B、真实值y(t)

C、随机值

D、固定值

答案：B

题目难度：中等

关联知识点：导师驱动过程和输出循环网络

314.在导师驱动过程中，训练时指定正确反馈是通过什么方式？

A、将模型自己的输出反馈到模型

B、随机生成反馈值

C、使用最大似然准则

D、接收真实值作为输入

答案：D

题目难度：中等

关联知识点：导师驱动过程和输出循环网络

315.当网络在开环模式下使用时，如果完全使用导师驱动过程进行训练，会出现什么问题？

A、训练速度变慢

B、训练集和测试集输入差异大

C、模型复杂度增加

D、模型准确率提高

答案：B

题目难度：中等

关联知识点：导师驱动过程和输出循环网络

316.为了减轻开环模式下导师驱动过程训练的问题，一种方法是同时使用导师驱动过程和什么进行训练？

A、固定值输入

B、随机值输入

C、自由运行的输入

D、平均输出值输入

答案：C

题目难度：中等

关联知识点：导师驱动过程和输出循环网络

317.通过随意选择生成值或真实的数据值作为输入以减小训练和测试时输入差别的方法利用了什么策略？

A、数据增强策略

B、正则化策略

C、课程学习策略

D、随机采样策略

答案：C

题目难度：中等

关联知识点：导师驱动过程和输出循环网络

318.计算循环神经网络的梯度，可以应用什么算法于展开的计算图？

A、随机梯度下降算法

B、批量梯度下降算法

C、推广反向传播算法

D、牛顿法

答案：C

题目难度：中等

关联知识点：导师驱动过程和输出循环网络

319.对于输出与下一时间步隐藏状态存在连接的 RNN，在训练时使用导师驱动过程，部署后如何处理输出？

A、始终使用训练集的真实输出

B、始终使用模型的预测输出

C、用模型的输出近似正确的输出并反馈回模型

D、随机选择输出反馈回模型

答案：C

题目难度：中等

关联知识点：导师驱动过程和输出循环网络

320.计算循环神经网络的梯度可以应用什么算法于展开的计算图？

A、随机梯度下降算法

B、批量梯度下降算法

C、推广反向传播算法

D、牛顿法

答案：C

题目难度：中等

关联知识点：计算循环神经网络的梯度

321.计算循环神经网络梯度时，结合什么技术可以训练 RNN？

A、任何通用的基于梯度的技术

B、任何无梯度的技术

C、特定的优化算法

D、随机采样技术

答案：A

题目难度：中等

关联知识点：计算循环神经网络的梯度

322.在计算梯度过程中，假设输出o(t)作为什么函数的参数？

A、线性函数

B、逻辑函数

C、softmax 函数

D、指数函数

答案：C

题目难度：中等

关联知识点：计算循环神经网络的梯度

323.在计算循环神经网络梯度时，为了消除计算图中边对梯度贡献的歧义，定义了什么虚拟变量？

A、x(t)

B、h(t)

C、w(t)

D、o(t)

答案：C

题目难度：中等

关联知识点：计算循环神经网络的梯度

324.当计算图中存在循环连接时，计算梯度的过程与无循环连接的计算图相比，主要的难点在于？

A、计算图结构更复杂，节点数量更多

B、需要考虑时间步的顺序，且参数在时间步间共享

C、损失函数的计算方式不同

D、反向传播算法无法直接应用

答案：B

题目难度：中等

关联知识点：计算循环神经网络的梯度

325.计算循环神经网络梯度时，在得到关于参数节点的梯度后，通常会使用什么方法来更新参数？

A、随机梯度下降（SGD）

B、随机森林算法

C、主成分分析（PCA）

D、聚类算法

答案：A

题目难度：中等

关联知识点：计算循环神经网络的梯度

326.在循环网络中，为了确定序列的长度，以下哪种方法是通过添加对应于序列末端的特殊符号来实现的？

A、在输出是从词汇表获取符号的情况下，添加特殊符号，当产生该符号时采样停止

B、引入额外的 Bernoulli 输出，表示在每个时间步决定继续生成或停止生成

C、添加一个额外输出预测整数T本身

D、随机确定序列长度

答案：A

题目难度：中等

关联知识点：作为有向图模型的循环网络

327.在将 RNN 视为图模型时，若要从模型采样，以下哪种操作是主要操作？

A、从每一时间步的条件分布采样

B、从初始状态开始顺序采样

C、随机选择时间步进行采样

D、从最终状态反向采样

答案：A

题目难度：中等

关联知识点：作为有向图模型的循环网络

328.在循环网络中，使用参数共享的前提是假设给定时刻t的变量后，时刻t+1变量的条件概率分布具有什么性质？

A、随机性

B、平稳性

C、独立性

D、相关性

答案：B

题目难度：中等

关联知识点：作为有向图模型的循环网络

329.在 RNN 图模型中，结合h(t)节点的作用不包括以下哪项？

A、作为过去和未来之间的中间量，将它们解耦

B、帮助确定序列长度

C、使得可以在时间步使用相同的条件概率分布有效地参数化模型

D、当观察到全部变量时，能高效评估联合分配给所有变量的概率

答案：B

题目难度：中等

关联知识点：作为有向图模型的循环网络

330.在循环网络中，若采用引入额外 Bernoulli 输出的方法确定序列长度，新的输出单元通常使用什么函数？

A、softmax 函数

B、sigmoid 函数

C、tanh 函数

D、ReLU 函数

答案：B

题目难度：中等

关联知识点：作为有向图模型的循环网络

331.在 RNN 图模型中，关于图模型中的边，以下说法正确的是？

A、边表示变量之间的直接依赖关系，应包含所有可能的依赖关系以保证准确性

B、边的存在与否不影响模型的统计和计算效率

C、通常可以作 Markov 假设来省略一些不存在强相互作用的边

D、边只存在于相邻的时间步变量之间

答案：C

题目难度：中等

关联知识点：作为有向图模型的循环网络

332.在将固定大小向量x作为输入提供给 RNN 的常见方法中，最常用的是哪种？

A、仅在初始状态h(0)作为输入

B、在每个时刻作为一个额外输入

C、结合在每个时刻作为额外输入和作为初始状态h(0)两种方式

D、随机在某些时刻作为输入

答案：B

题目难度：中等

关联知识点：基于上下文的RNN 序列建模

333.在基于上下文的 RNN 序列建模中，当输入为单个向量x时，权重与输入的关系是怎样的？

A、权重与输入完全融合

B、权重与输入相互依赖

C、权重与输入保持独立

D、权重由输入决定

答案：C

题目难度：中等

关联知识点：基于上下文的RNN 序列建模

334.在图 10.10 所示模型中，在时刻t的输出到时刻t+1的隐藏单元添加连接的目的是什么？

A、增加模型复杂度

B、去掉条件独立的假设

C、提高计算效率

D、减少参数数量

答案：B

题目难度：中等

关联知识点：基于上下文的RNN 序列建模

335.在基于上下文的 RNN 序列建模中，将单个向量x作为产生y序列 RNN 的额外输入时，xTR在每个时间步起到什么作用？

A、作为隐藏单元的额外输入

B、作为输出单元的额外输入

C、作为偏置参数的调整值

D、作为权重矩阵的修正值

答案：A

题目难度：中等

关联知识点：基于上下文的RNN 序列建模

336.在基于上下文的 RNN 序列建模中，模型代表给定一个序列表示另一个序列分布时，存在的限制是什么？

A、两个序列的元素必须一一对应

B、两个序列的长度必须相同

C、两个序列的取值范围必须相同

D、两个序列的分布必须相同

答案：B

题目难度：中等

关联知识点：基于上下文的RNN 序列建模

337.以下关于门控 RNN 的描述，错误的是（）。

A、门控 RNN 包括基于长短期记忆和基于门控循环单元的网络

B、门控 RNN 的连接权重在每个时间步都固定不变

C、门控 RNN 旨在解决梯度消失和爆炸问题

D、门控 RNN 在实际应用中表现出色

答案：B

题目难度：中等

关联知识点：LSTM

338. LSTM 的核心贡献是（）。

A、引入自循环以产生梯度长时间持续流动的路径

B、使自循环的权重视上下文而定

C、累积的时间尺度可以动态改变

D、以上都是

答案：D

题目难度：中等

关联知识点：LSTM

339.在 LSTM 中，遗忘门的作用是（）。

A、控制输入信息的累加

B、决定是否将状态设置为 0 以忘记旧状态

C、控制细胞输出的关闭

D、控制细胞状态的更新

答案：B

题目难度：中等

关联知识点：LSTM

340.LSTM 细胞的输出由（）控制关闭。

A、遗忘门

B、输入门

C、输出门

D、以上都不是

答案：C

题目难度：中等

关联知识点：LSTM

341.以下关于 LSTM 网络的说法，正确的是（）。

A、LSTM 网络比简单循环架构更难学习长期依赖

B、LSTM 网络在人工数据集上表现不佳

C、LSTM 网络在具有挑战性的序列处理任务上取得了先进表现

D、LSTM 网络的变体和替代未被研究和使用

答案：C

题目难度：中等

关联知识点：LSTM

342.LSTM 细胞内部状态更新公式中，自环权重由（）控制。

A、输入门

B、遗忘门

C、输出门

D、外部输入门

答案：B

题目难度：中等

关联知识点：LSTM

343.在 LSTM 中，外部输入门的更新方式与（）类似。

A、遗忘门

B、输出门

C、普通循环单元

D、以上都不是

答案：A

题目难度：中等

关联知识点：LSTM

344.以下哪项不是 LSTM 的组成部分（）。

A、遗忘门

B、输入门

C、输出门

D、跳跃连接

答案：D

题目难度：中等

关联知识点：LSTM

345.LSTM 循环网络除了外部的 RNN 循环外，还具有（）循环。

A、内部的 “LSTM 细胞”

B、内部的 “GRU 细胞”

C、外部的 “LSTM 细胞”

D、外部的 “GRU 细胞”

答案：A

题目难度：中等

关联知识点：LSTM

346.LSTM 细胞中，用于控制自环权重的遗忘门由（）将权重设置为 0 和 1 之间的值。

A、tanh 函数

B、softplus 函数

C、sigmoid 单元

D、线性单元

答案：C

题目难度：中等

关联知识点：LSTM

347.手动设置超参数时，主要目标是（）。

A、最小化训练误差

B、最小化泛化误差

C、调整模型的有效容量以匹配任务的复杂性

D、提高模型的运行速度

答案：C

题目难度：中等

关联知识点：手动调整超参数

348.当泛化误差以超参数为变量绘制曲线时，通常呈现（）。

A、直线

B、抛物线

C、U 形曲线

D、指数曲线

答案：C

题目难度：中等

关联知识点：手动调整超参数

349.对于某些超参数，当数值太大时会发生过拟合，以下哪个超参数属于这种情况（）。

A、权重衰减系数

B、学习率

C、中间层隐藏单元数量

D、隐式零填充

答案：C

题目难度：中等

关联知识点：手动调整超参数

350.以下关于学习率的说法，错误的是（）。

A、学习率是最重要的超参数之一

B、学习率以复杂方式控制模型有效容量

C、当学习率过大时，梯度下降一定会减少训练误差

D、当学习率过小时，训练可能会很慢且可能停留在高训练误差

答案：C

题目难度：中等

关联知识点：手动调整超参数

351.如果训练集错误率大于目标错误率，且未使用正则化且优化算法正确运行，应（）。

A、增加正则化强度

B、减少模型容量

C、添加更多网络层或隐藏单元

D、调整学习率

答案：C

题目难度：中等

关联知识点：手动调整超参数

352.如果测试集错误率大于目标错误率，以下做法错误的是（）。

A、改变正则化超参数以减少有效模型容量

B、增加模型容量

C、调整学习率

D、仅关注训练误差，忽略测试误差

答案：D

题目难度：中等

关联知识点：手动调整超参数

353.以下超参数中，能增加模型容量的是（）。

A、降低权重衰减系数

B、减少隐藏单元数量

C、减小学习率

D、减小 Dropout 比率

答案：A

题目难度：中等

关联知识点：手动调整超参数

354.大部分超参数可以通过（）来设置。

A、随机选择

B、试错法

C、推理其对模型容量的影响

D、参考其他模型的设置

答案：C

题目难度：中等

关联知识点：手动调整超参数

355.手动调整超参数时，最终目标是（）。

A、提升训练集性能

B、提升测试集性能

C、减少模型计算代价

D、增加模型容量

答案：B

题目难度：中等

关联知识点：手动调整超参数

356.当训练误差较小，测试误差主要取决于训练误差和测试误差之间的差距时，应（）。

A、增加模型容量

B、减少模型容量

C、保持模型容量不变

D、随机调整模型容量

答案：B

题目难度：中等

关联知识点：手动调整超参数

357.以下哪种情况手动调整超参数可能效果较好（）。

A、超参数数量很多且无经验初始值

B、超参数数量较少且有经验初始值

C、对所有应用都适用

D、无需考虑初始值和超参数数量

答案：B

题目难度：中等

关联知识点：自动超参数优化算法

358.超参数优化算法本质上是一种（）。

A、回归算法

B、分类算法

C、优化算法

D、聚类算法

答案：C

题目难度：中等

关联知识点：自动超参数优化算法

359.超参数优化算法自身也有超参数，这些次级超参数（）。

A、很难选择，需针对不同问题调整

B、很容易选择，在不同问题上性能差异大

C、很容易选择，在许多不同问题上能有良好性能

D、无需选择，有固定标准值

答案：C

题目难度：中等

关联知识点：自动超参数优化算法

360.当超参数数量为三个或更少时，常见的超参数搜索方法是（）。

A、随机搜索

B、网格搜索

C、基于模型的超参数优化

D、遗传算法

答案：B

题目难度：中等

关联知识点：自动超参数优化算法

361.在进行网格搜索时，对于数值型超参数，其取值范围通常应（）。

A、在均匀尺度下随机挑选

B、在对数尺度下保守挑选

C、在均匀尺度下保守挑选

D、在对数尺度下随机挑选

答案：B

题目难度：中等

关联知识点：自动超参数优化算法

362.如果在网格搜索中，首次搜索得到的超参数最佳值在所选范围边界，应（）。

A、停止搜索，该值即为最优

B、细化该边界值附近的搜索范围

C、改变搜索格点，扩大搜索范围

D、随机调整搜索范围

答案：C

题目难度：中等

关联知识点：自动超参数优化算法

363.网格搜索的计算代价随着超参数数量（）。

A、线性增长

B、对数增长

C、指数增长

D、不增长

答案：C

题目难度：中等

关联知识点：自动超参数优化算法

364.自动超参数优化算法的目标是（）。

A、减少训练时间

B、减少内存使用

C、输出学习函数而无需手动调整超参数

D、提高模型准确率

答案：C

题目难度：中等

关联知识点：自动超参数优化算法

365.以下关于超参数优化算法的说法，错误的是（）。

A、其目的是找到优化目标函数的超参数

B、可能有约束条件，如训练时间、内存预算等

C、次级超参数不重要，无需关注

D、能在一定程度上解决手动调整超参数的困难

答案：C

题目难度：中等

关联知识点：自动超参数优化算法

366.与手动调整超参数相比，自动超参数优化算法（）。

A、一定能找到更好的超参数

B、不需要任何初始值

C、计算成本更低

D、对使用者超参数调整经验要求低

答案：D

题目难度：中等

关联知识点：自动超参数优化算法

367.网格搜索适用于超参数数量为（）的情况。

A、一个

B、两个

C、三个或更少

D、四个或更多

答案：C

题目难度：中等

关联知识点：网格搜索

368.在进行网格搜索时，对于数值型超参数，其取值范围通常基于（）挑选。

A、随机选择

B、先前相似实验经验保守地

C、最大值和最小值的平均值

D、固定的标准范围

答案：B

题目难度：中等

关联知识点：网格搜索

369.网格搜索在选择超参数取值集合时，通常会在（）下挑选合适的值。

A、线性尺度

B、对数尺度

C、指数尺度

D、均匀尺度

答案：B

题目难度：中等

关联知识点：网格搜索

370.如果在网格搜索中，首次搜索得到的超参数最佳值在所选范围边界，应该（）。

A、停止搜索，该值即为最优

B、在该边界值附近随机选择新值

C、细化该边界值附近的搜索范围

D、改变搜索格点，扩大搜索范围

答案：D

题目难度：中等

关联知识点：网格搜索

371.网格搜索的计算代价随着超参数数量呈（）增长。

A、线性

B、对数

C、指数

D、多项式

答案：C

题目难度：中等

关联知识点：网格搜索

372.以下关于网格搜索的说法，错误的是（）。

A、能找到所有可能的超参数组合中的最优解

B、需要为每个超参数选择有限值集

C、计算代价高，难以处理大量超参数

D、是一种常见的超参数搜索方法

答案：A

题目难度：中等

关联知识点：网格搜索

373.网格搜索中，挑选最佳超参数的依据是（）。

A、训练集误差最小

B、测试集误差最小

C、验证集误差最小

D、训练集和验证集误差之和最小

答案：C

题目难度：中等

关联知识点：网格搜索

374.网格搜索中，超参数笛卡尔乘积的作用是（）。

A、减少计算量

B、增加搜索的随机性

C、得到所有可能的超参数组合

D、确定超参数的重要性

答案：C

题目难度：中等

关联知识点：网格搜索

375.与其他超参数搜索方法相比，网格搜索的主要缺点是（）。

A、搜索结果不准确

B、不能并行计算

C、计算成本高

D、对超参数分布有要求

答案：C

题目难度：中等

关联知识点：网格搜索

376.在深度学习中，图像对比度通常指的是（）。

A、图像中亮像素和暗像素数量的差值

B、图像中亮像素和暗像素之间差异的大小

C、图像中像素强度的平均值

D、图像中像素强度的最大值与最小值之差

答案：B

题目难度：中等

关联知识点：对比度归一化

377.全局对比度归一化（GCN）的目的是（）。

A、增加图像对比度

B、减少图像对比度

C、防止图像对比度变化，使其像素标准差等于常数

D、使图像对比度等于某个预设值

答案：C

题目难度：中等

关联知识点：对比度归一化

378.全局对比度归一化可被理解为（）。

A、到球体内部的映射

B、到球心的映射

C、到球壳的映射

D、到平面的映射

答案：C

题目难度：中等

关联知识点：对比度归一化

379.与全局对比度归一化不同，sphering（白化）的作用是（）。

A、使数据位于球形壳上

B、将主成分重新缩放以具有相等方差，使 PCA 使用的多变量正态分布具有球形等高线

C、增加图像对比度

D、减少图像对比度

答案：B

题目难度：中等

关联知识点：对比度归一化

380.局部对比度归一化（LCN）是在（）上进行对比度归一化。

A、每个小窗口

B、整个图像

C、图像的一半区域

D、图像的特定颜色通道

答案：A

题目难度：中等

关联知识点：对比度归一化

381.局部对比度归一化计算平均值和标准差时，以下哪种方式不可行（）。

A、计算以当前像素为中心的矩形窗口中所有像素的平均值和标准差

B、使用以当前像素为中心的高斯权重的加权平均和加权标准差

C、单独处理不同颜色通道计算平均值和标准差

D、随机选择图像部分区域计算平均值和标准差

答案：D

题目难度：中等

关联知识点：对比度归一化

382.局部对比度归一化通常可通过（）来计算特征映射的局部平均值和局部标准差。

A、全连接层

B、池化层

C、可分离卷积

D、普通卷积

答案：C

题目难度：中等

关联知识点：对比度归一化

383.局部对比度归一化需要正则化的原因是（）。

A、避免计算量过大

B、避免出现除以零的情况

C、提高计算速度

D、增强模型泛化能力

答案：B

题目难度：中等

关联知识点：对比度归一化

384.数据集增强的主要目的是（）。

A、增加训练集的多样性，提高分类器泛化能力

B、减少训练集的数据量，加快训练速度

C、改变图像类别，增加任务难度

D、提高图像分辨率，改善视觉效果

答案：A

题目难度：中等

关联知识点：计算机视觉-数据集增强

385.以下哪种任务特别适合数据集增强（）。

A、图像生成

B、对象识别

C、图像分割

D、图像超分辨率重建

答案：B

题目难度：中等

关联知识点：计算机视觉-数据集增强

386.在数据集增强中，通过对原始图像进行几何变换，不包括以下哪种操作（）。

A、随机转换

B、旋转

C、裁剪

D、改变图像类别

答案：D

题目难度：中等

关联知识点：计算机视觉-数据集增强

387.在专门的计算机视觉应用中，以下哪种不是高级的数据集增强变换（）。

A、图像颜色的随机扰动

B、图像的模糊处理

C、图像的随机裁剪

D、改变图像的对比度

答案：D

题目难度：中等

关联知识点：计算机视觉-数据集增强

388.数据集增强主要是对（）进行操作。

A、训练集

B、测试集

C、验证集

D、训练集、测试集和验证集

答案：A

题目难度：中等

关联知识点：计算机视觉-数据集增强

389.增加训练集额外副本的方式是（）。

A、复制原始图像多次

B、对原始图像进行变换生成新图像

C、随机生成新图像

D、从其他数据集中获取相似图像

答案：B

题目难度：中等

关联知识点：计算机视觉-数据集增强

390.以下关于数据集增强的说法，错误的是（）。

A、可以提高模型的泛化能力

B、只适用于图像数据

C、不会改变图像类别

D、可以通过多种变换方式实现

答案：B

题目难度：中等

关联知识点：计算机视觉-数据集增强

391.在对象识别任务中，以下哪种变换可能不会增强数据集（）。

A、随机旋转图像

B、随机裁剪图像

C、随机改变图像亮度

D、随机改变图像类别

答案：D

题目难度：中等

关联知识点：计算机视觉-数据集增强

392.数据集增强通过（）来改进分类器。

A、增加训练数据的多样性

B、减少训练数据的噪声

C、提高训练数据的分辨率

D、优化训练算法

答案：A

题目难度：中等

关联知识点：计算机视觉-数据集增强

393.以下哪种情况不太适合使用数据集增强（）。

A、训练数据较少

B、模型容易过拟合

C、任务对数据变换敏感

D、有大量高质量训练数据

答案：D

题目难度：中等

关联知识点：计算机视觉-数据集增强

二、多选题

1.深度学习早期被赋予了许多不同名称，以下哪些是其曾用名？（）

A、控制论

B、联结主义

C、人工神经网络

D、计算神经科学

E、并行分布处理

答案：ABC

题目难度：中等

关联知识点：神经网络的众多名称和命运变迁

2.以下哪些因素对深度学习的发展起到了推动作用？（）

A、可用训练数据量的增加

B、计算机软硬件基础设施的改善

C、对大脑研究的深入理解

D、其他机器学习领域的发展

E、社会数字化趋势

答案：ABE

题目难度：中等

关联知识点：神经网络的众多名称和命运变迁

3.第一次神经网络热潮衰退的相关因素有（）。

A、线性模型的局限性被发现

B、缺乏有效的训练算法

C、计算资源的限制

D、神经科学研究进展缓慢

E、其他机器学习技术的竞争

答案：AC

题目难度：中等

关联知识点：神经网络的众多名称和命运变迁

4.以下关于神经网络研究第二次浪潮的说法正确的有（）。

A、联结主义在认知科学背景下出现

B、反向传播算法在该时期得到成功应用

C、长短期记忆网络被引入解决序列建模难题

D、创业公司的兴起推动了神经网络的广泛应用

E、分布式表示概念在此期间得到发展

答案：ABCE

题目难度：中等

关联知识点：神经网络的众多名称和命运变迁

5.深度学习从神经科学中获得的启发包括（）。

A、基本思想受大脑启发，如通过计算单元相互作用实现智能

B、新认知机受哺乳动物视觉系统结构启发，影响了现代卷积网络

C、整流线性单元受大脑功能知识启发而形成

D、尝试模拟大脑的学习算法

E、依据大脑神经元计算函数构建神经网络

答案：ABC

题目难度：中等

关联知识点：神经网络的众多名称和命运变迁

6.计算神经科学与深度学习的关系是（）。

A、计算神经科学主要关注构建大脑真实工作模型

B、深度学习主要关注构建计算机系统解决智能任务

C、两者相互独立，没有任何关联

D、研究人员在两个领域之间可能来回研究

E、深度学习的发展推动了计算神经科学的进步

答案：ABD

题目难度：中等

关联知识点：神经网络的众多名称和命运变迁

7.20 世纪 80 年代深度学习未广泛应用的原因可能有（）。

A、计算资源有限，难以运行较大规模的深度网络

B、缺乏有效的训练算法，尽管当时已有可用算法但未被充分认识

C、数据量不足，难以满足深度网络训练需求

D、其他机器学习技术的竞争更为激烈

E、社会对深度学习的认知度低，认为其只是专家的艺术

答案：ABC

题目难度：中等

关联知识点：与日俱增的数据量

8.深度学习第三次浪潮的特点包括（）。

A、强调深度神经网络的训练和理论重要性

B、新的无监督学习技术受到关注

C、深度模型在小数据集上的泛化能力成为研究重点之一

D、深度模型在大型标注数据集上的能力仍被重视

E、深度学习开始广泛应用于各个领域

答案：ABCD

题目难度：中等

关联知识点：与日俱增的数据量

9.随着时间推移，数据集发展呈现出以下哪些趋势？（）

A、数据集规模不断增大

B、数据集来源从手动制作逐渐转向计算机生成和网络收集

C、数据集的复杂性不断提高，包含更多类型的数据

D、数据集的标注质量越来越高

E、数据集的应用领域不断拓宽

答案：ABC

题目难度：中等

关联知识点：与日俱增的数据量

10.计算资源提升对深度学习发展的影响有（）。

A、使得训练更大规模的深度网络成为可能

B、加速了深度学习算法的训练速度

C、降低了深度学习的门槛，使更多研究者能够进行相关研究

D、促进了新的深度学习算法和模型的出现

E、提高了深度学习模型在实际应用中的性能

答案：ABDE

题目难度：中等

关联知识点：与日俱增的数据量

11.以下关于 MNIST 数据集的说法正确的有（）。

A、它是深度学习研究中常用的测试数据集之一

B、数据经过预处理以便于机器学习算法使用

C、包含手写数字的扫描图像和对应的标签

D、尽管现在技术容易解决其相关问题，但仍受欢迎

E、是现代大型复杂数据集的代表

答案：ABCD

题目难度：中等

关联知识点：与日俱增的数据量

12.深度学习从早期到现在的发展过程中，以下哪些方面发生了变化？（）

A、名称的变化，从多种名称到统一为 “深度学习”

B、算法的性能，从只能解决简单问题到能处理复杂任务

C、对计算资源的依赖程度，从较低依赖到高度依赖

D、应用场景，从仅用于特定领域到广泛应用于多个领域

E、研究重点，从单纯的模型构建到包括数据利用、模型泛化等多方面

答案：ABCE

题目难度：中等

关联知识点：与日俱增的数据量

13.以下哪些因素对人工神经网络规模的增长起到了推动作用？（）

A、计算机硬件性能的提升

B、数据存储技术的发展

C、深度学习算法的创新

D、对人工智能需求的增加

E、网络架构的改进

答案：ABDE

题目难度：中等

关联知识点：与日俱增的模型规模

14.关于人工神经网络与生物神经网络的比较，下列说法正确的有（）。

A、目前人工神经网络的规模在神经元总数目上比人类大脑小很多

B、生物神经元之间的连接可能比人工神经元更为复杂

C、人工神经网络中每个神经元的连接数已达到生物神经网络的水平

D、生物神经网络的功能可能不仅仅取决于神经元数量和连接情况

E、随着技术发展，人工神经网络在规模和功能上有望超越生物神经网络

答案：ABDE

题目难度：中等

关联知识点：与日俱增的模型规模

15.以下关于人工神经网络规模增长趋势的说法正确的有（）。

A、大约每 2.4 年神经元总数目会扩大一倍
B、增长趋势主要由计算资源和数据量的提升驱动
C、未来人工神经网络规模可能会持续增长数十年
D、随着规模增长，人工神经网络能处理的任务复杂度也会增加
E、新的算法出现会减缓人工神经网络规模的增长速度
答案：ABCD

题目难度：中等

关联知识点：与日俱增的模型规模

16.从图中可以看出（）。

A、不同类型的人工神经网络在不同时期的规模大小

B、人工神经网络规模随时间的增长趋势

C、生物神经网络规模与人工神经网络规模的对比

D、早期人工神经网络规模较小

E、近期人工神经网络规模增长迅速

答案：ABDE

题目难度：中等

关联知识点：与日俱增的模型规模

17.以下哪些神经网络模型在规模上相对较大（）。

A、Multi - GPU 卷积网络

B、深度信念网络

C、分布式自编码器

D、神经认知机

E、 GoogLeNet

答案：ACE

题目难度：中等

关联知识点：与日俱增的模型规模

18.计算资源提升对人工神经网络规模增长的具体影响包括（）。

A、能够支持更多的神经元和连接
B、加快神经网络的训练速度
C、允许使用更复杂的网络架构
D、提高神经网络的存储能力
E、降低神经网络的计算误差
答案：ABC

题目难度：中等

关联知识点：与日俱增的模型规模

19.以下哪些方面体现了深度学习精度的提高？（）

A、在 ImageNet 大型视觉识别挑战中错误率不断降低

B、语音识别错误率大幅下降

C、能够处理更高分辨率的图像

D、可以识别更多类别的对象

E、交通标志分类超越人类表现

答案：ABDE

题目难度：中等

关联知识点：与日俱增的精度、复杂度和对现实世界的冲击

20.深度学习在图像相关任务中的发展表现有哪些？（）

A、从处理小尺寸裁剪图像到处理高分辨率照片

B、从识别单一类别对象到识别多种类别对象

C、从图像识别发展到图像分割和行人检测

D、从依赖人工标注到自动生成标注

E、从简单图像特征提取到复杂视觉处理模型构建

答案：ABCE

题目难度：中等

关联知识点：与日俱增的精度、复杂度和对现实世界的冲击

21.深度学习在序列相关任务中有哪些发展？（）

A、从识别单个对象到输出描述图像的字符序列

B、从固定输入关系到对序列之间关系建模

C、从简单序列处理到序列到序列学习用于机器翻译

D、从序列学习到自我编程技术的初步探索

E、从处理短序列到处理长序列数据

答案：ABCD

题目难度：中等

关联知识点：与日俱增的精度、复杂度和对现实世界的冲击

22.以下哪些属于深度学习在强化学习领域的成果？（）

A、DeepMind 的系统学会玩 Atari 视频游戏并可与人类匹敌

B、改善了机器人强化学习的性能

C、实现了强化学习算法的理论突破

D、开发了新的强化学习任务场景

E、提高了强化学习在实际应用中的效率

答案：ABE

题目难度：中等

关联知识点：与日俱增的精度、复杂度和对现实世界的冲击

23.深度学习在科学领域的应用有哪些？（）

A、为神经科学家提供视觉处理模型

B、帮助制药公司设计新药物

C、搜索亚原子粒子

D、自动解析显微镜图像构建人脑三维图

E、预测气候变化

答案：ABCD

题目难度：中等

关联知识点：与日俱增的精度、复杂度和对现实世界的冲击

24.深度学习的发展依赖于哪些因素？（）

A、更强大的计算机

B、更大的数据集

C、新的算法理论

D、软件基础架构的进展

E、跨学科研究的推动

答案：ABCDE

题目难度：中等

关联知识点：与日俱增的精度、复杂度和对现实世界的冲击

25.在深度学习中，涉及到的线性代数概念及操作有（）。

A、用向量表示数据样本，矩阵表示数据集

B、通过矩阵乘法进行线性变换

C、利用张量来处理高维数据

D、矩阵转置用于调整数据维度

E、广播机制实现矩阵与向量的灵活相加

答案：ABCE

题目难度：中等

关联知识点：标量、向量、矩阵和张量

26.关于标量、向量、矩阵和张量的关系，以下说法正确的有（）。

A、标量是向量的特殊情况，即向量的元素个数为时可看作标量

B、向量是矩阵的特殊情况，即只有一行或一列的矩阵

C、矩阵是张量的特殊情况，即二维张量

D、它们在深度学习中都用于数据的表示和运算

E、张量的运算规则与向量和矩阵完全不同

答案：ABCD

题目难度：中等

关联知识点：标量、向量、矩阵和张量

27.以下关于标量的性质，正确的有（）。

A、标量在数学运算中遵循基本的四则运算规则

B、标量可以表示物理中的各种常量，如重力加速度等

C、不同类型的标量（如自然数标量和实数标量）在运算时可能有不同限制

D、标量的乘法满足交换律和结合律

E、标量的转置等于其本身，但在某些情况下转置操作无实际意义

答案：ABCDE

题目难度：中等

关联知识点：标量、向量、矩阵和张量

28.关于向量和矩阵在深度学习中的应用，以下说法正确的有（）。

A、向量常用于表示样本的特征

B、矩阵可用于表示样本之间的关系

C、深度学习模型中的参数常以矩阵形式存储和更新

D、向量和矩阵的运算在模型的前向传播和反向传播中都有体现

E、通过矩阵乘法可以实现数据的降维操作

答案：ABCDE

题目难度：中等

关联知识点：标量、向量、矩阵和张量

29.张量在深度学习中的优势包括（）。

A、能够处理高维数据，适应复杂的数据结构

B、可以更自然地表示多模态数据

C、在处理图像、视频等数据时，保留了数据的多维结构信息

D、张量运算规则比向量和矩阵更灵活，便于优化算法

E、相比于向量和矩阵，张量在存储上更节省空间

答案：ABC

题目难度：中等

关联知识点：标量、向量、矩阵和张量

30.在深度学习中，为了提高计算效率，可能会涉及到以下哪些与线性代数相关的操作或优化？（）

A、利用矩阵的稀疏性，减少不必要的计算

B、对矩阵进行分块计算，降低计算复杂度

C、优化矩阵乘法算法，如采用更高效的计算顺序

D、用低秩矩阵近似来代替高维矩阵

E、调整张量的存储格式，以适应不同硬件的访问特点

答案：ABCDE

题目难度：中等

关联知识点：标量、向量、矩阵和张量

31.两个矩阵A和B相加，以下哪些条件是必须满足的？（）

A、A和B必须是方阵

B、A和B的行数相同

C、A和B的列数相同

D、A和B的元素类型相同

E、A和B的主对角线元素之和相等

答案：BC

题目难度：中等

关联知识点：矩阵和向量相乘

32.以下关于向量与矩阵在运算中的关系，正确的有（）。

A、向量可看作是特殊的矩阵（只有一行或一列）

B、向量与矩阵相加（广播机制下）时，向量的维数需与矩阵的行数或列数匹配

C、向量与矩阵相乘时，可按照矩阵乘法规则进行运算

D、向量的转置在与矩阵运算时起到调整维度的作用

E、向量和矩阵的运算结果一定是向量或矩阵

答案：ACD

题目难度：中等

关联知识点：矩阵和向量相乘

33.对于矩阵A和B，若（AB）T=BTAT，以下关于此等式的应用或理解正确的有（）。

A、在证明一些矩阵相关的等式或定理时可能会用到

B、可以用于简化矩阵乘法转置的计算

C、表明矩阵转置与乘法的顺序关系

D、对于任意形状的矩阵A和B都成立（只要乘法有定义）

E、说明矩阵转置后乘法的结合律仍然成立

答案：ABCD

题目难度：中等

关联知识点：矩阵和向量相乘

34.以下关于单位矩阵In的描述，正确的有（）。

A、In是唯一的（对于给定的n，单位矩阵是唯一确定的）

B、In与任何同阶方阵相乘都满足交换律

C、单位矩阵的逆矩阵就是它本身

D、单位矩阵的秩为n

E、单位矩阵可以看作是一种特殊的对角矩阵

答案：ABCDE

题目难度：中等

关联知识点：矩阵和向量相乘

35.机器学习中需要处理不确定性，以下哪些属于不确定性的来源？（）

A、数据中的噪声干扰

B、被建模系统本身的随机变化

C、无法获取全部相关信息

D、模型对数据的过度拟合

E、模型的局限性导致某些信息被舍弃

答案：BCE

题目难度：中等

关联知识点：为什么要使用概率？

36.以下关于频率派概率和贝叶斯概率的说法，正确的有（）。

A、频率派概率适用于可重复事件，贝叶斯概率适用于不可重复事件

B、频率派概率基于事件发生的频率，贝叶斯概率基于主观判断

C、在某些情况下，两者可视为等同

D、频率派概率计算更精确，贝叶斯概率更具灵活性

E、它们都是用于量化不确定性的方法

答案：ACE

题目难度：中等

关联知识点：为什么要使用概率？

37.以下哪些场景体现了不完全建模导致的不确定性？（）

A、用线性模型近似非线性关系时的预测误差

B、对图像进行压缩后导致的细节丢失

C、抽样过程中样本不能完全代表总体

D、忽略了某些影响因素的经济预测模型

E、用有限个数据点拟合复杂曲线时的偏差

答案：ABDE

题目难度：中等

关联知识点：为什么要使用概率？

38.逻辑和概率论的区别包括（）。

A、逻辑处理确定性问题，概率论处理不确定性问题

B、逻辑基于真假判断，概率论基于似然计算

C、逻辑适用于精确推理，概率论适用于模糊推理

D、逻辑规则是绝对的，概率论规则是相对的

E、逻辑主要用于理论分析，概率论主要用于实际应用

答案：AB

题目难度：中等

关联知识点：为什么要使用概率？

39.以下哪些例子可以说明简单不确定规则比复杂确定规则更实用？（）

A、“物体下落会落地” 比考虑各种空气阻力、物体形状等因素的复杂物理公式更易理解和应用

B、“人会变老” 比详细分析人体生理变化过程的规则更便于日常使用

C、“交通堵塞时车速会减慢” 比精确计算交通流量、道路状况等因素的规则更能快速判断

D、“太阳从东方升起” 比解释地球公转自转等原理的规则更直观实用

E、“水往低处流” 比研究重力、地形等因素的复杂规则更简洁易用

答案：ABCDE

题目难度：中等

关联知识点：为什么要使用概率？

40.关于不确定性的常识推理，以下说法正确的有（）。

A、常识推理期望不确定性的表示和推理方法具有一致性

B、频率派概率和贝叶斯概率在常识推理中经常被混合使用

C、满足某些常识性假设时，频率派概率和贝叶斯概率的计算方法会相同

D、常识推理要求概率的定义要符合日常认知

E、不确定性的常识推理有助于在不同场景下选择合适的概率方法

答案：AE

题目难度：中等

关联知识点：为什么要使用概率？

41.以下哪些情况可以用概率来处理？（）

A、预测明天是否会下雨

B、评估一个新产品的市场接受度

C、计算在特定游戏中获胜的可能性

D、分析股票价格的走势

E、确定一个算法的时间复杂度

答案：ABCD

题目难度：中等

关联知识点：为什么要使用概率？

42.在处理不确定性时，概率论的作用包括（）。

A、量化不确定性的程度

B、提供不确定性推理的框架

C、帮助选择最优决策

D、消除不确定性

E、使模型更具可解释性

答案：ABC

题目难度：中等

关联知识点：为什么要使用概率？

43.以下关于随机变量的说法，正确的有（）。

A、随机变量可以取不同的值

B、用不同字体区分随机变量本身和其取值

C、随机变量的取值是完全随机的，没有任何规律

D、随机变量在概率论中用于描述不确定性

E、随机变量的取值范围是固定不变的

答案：ABD

题目难度：中等

关联知识点：为什么要使用概率？

44.从文中可以看出，计算机科学中使用概率论相对较少的原因可能是（）。

A、计算机处理的大多是确定的实体和事件

B、硬件错误发生概率极低，可忽略不计

C、传统计算机科学更注重精确计算和逻辑控制

D、概率论在计算机领域缺乏有效的应用场景

E、软件工程师对概率论的了解和掌握不足

答案：ABC

题目难度：中等

关联知识点：为什么要使用概率？

45.以下关于随机变量的描述，正确的有（）。

A、随机变量可以用来描述具有不确定性的事件结果

B、离散型随机变量的取值是离散的，而连续型随机变量的取值是连续的

C、随机变量的取值由其概率分布唯一确定

D、向量值随机变量可以看作是多个随机变量的组合

E、随机变量的概率分布可以是已知的，也可以是未知的

答案：ABDE

题目难度：中等

关联知识点：随机变量

46.随机变量在以下哪些领域有广泛应用？（）
A、统计学
B、机器学习
C、物理学
D、经济学
E、生物学
答案：ABCDE

题目难度：中等

关联知识点：随机变量

47.关于向量值随机变量，以下正确的有（）。
A、其取值是向量
B、可以用联合概率分布来描述多个向量值随机变量之间的关系
C、当向量元素是离散型随机变量时，可用概率质量函数描述
D、向量值随机变量的概率分布与普通随机变量有本质区别
E、其每个元素可以是不同类型的随机变量
答案：ABCE

题目难度：中等

关联知识点：随机变量

48.以下哪些是随机变量的概率分布的表示方法？（）

A、概率质量函数（PMF）

B、概率密度函数（PDF）

C、累积分布函数（CDF）

D、联合概率分布

E、条件概率分布

答案：ABCDE

题目难度：中等

关联知识点：随机变量

49.以下关于随机变量与确定性变量的区别，正确的有（）。

A、确定性变量取值是确定的，而随机变量取值不确定

B、确定性变量不需要概率分布描述，随机变量需要

C、确定性变量在数学模型中表现为常数，随机变量是变量

D、确定性变量的运算结果是确定的，随机变量的运算结果不确定

E、随机变量可以通过概率分布来描述其不确定性程度，确定性变量无法用概率描述

答案：ABCDE

题目难度：中等

关联知识点：随机变量

50.下列关于离散型随机变量概率质量函数的描述，正确的有（）。

A、它可以用来描述随机变量取不同值的概率

B、它是一个单调递增函数

C、它的图像可能是一条水平直线（在均匀分布时）

D、它完全决定了随机变量的分布

E、它可以通过大量重复试验来估计

答案：ACDE

题目难度：中等

关联知识点：离散型变量和概率质量函数

51.以下哪些是离散型随机变量（）。

A、某地区每天的降雨量（精确到毫米）

B、一个班级学生的考试成绩（百分制）

C、掷骰子的结果

D、灯泡的使用寿命

E、某网站每天的访问人数

答案：BCE

题目难度：中等

关联知识点：离散型变量和概率质量函数

52.对于离散型随机变量X，以下关于概率质量函数P（X）的性质正确的有（）。

A、P（X）是非负函数

B、P（X）的最大值为1

C、P（X）的最小值为0

D、P（X）的图像是离散的点

E、P（X）关于X的均值对称（如果分布对称）

答案：ACDE

题目难度：中等

关联知识点：离散型变量和概率质量函数

53.下列关于连续型随机变量概率分布的描述，正确的有（）。

A、概率密度函数p(

)描述了随机变量在某点附近取值的相对可能性

B、均匀分布是一种常见的连续型随机变量分布

C、概率密度函数p(

)的图像与

轴围成的面积为1

D、可以通过对概率密度函数积分得到累积分布函数

E、连续型随机变量的取值是不可数的无限个

答案：ABCDE

题目难度：中等

关联知识点：连续型变量和概率密度函数

54.连续型随机变量X的概率密度函数p(

)的图像特点可能包括（）。

A、连续且光滑

B、存在间断点

C、有峰值和谷值

D、在某些区间为常数（如均匀分布）

E、关于某直线对称（如正态分布）

答案：ABCDE

题目难度：中等

关联知识点：连续型变量和概率密度函数

55.设

是连续型随机变量，F(

)为其累积分布函数，p(

)为概率密度函数，则（）。

A、F(

)的导数为p(

)（在p(

)连续点处）

B、F(

)是一个单调递增的连续函数

C、F(

)的二阶导数与p(

)的导数有关（若p(

)二阶可导）

D、由F(

)可唯一确定p(

)（除有限个点外）

E、F(

)在

趋于正无穷时极限为1，趋于负无穷时极限为0

答案：ACDE

题目难度：中等

关联知识点：连续型变量和概率密度函数

56.Hessian 矩阵具有以下哪些性质（）。

A、在二阶偏导连续的点处是对称矩阵

B、可分解为实特征值和特征向量的正交基

C、其特征值可用于判断函数的曲率情况

D、可用于确定临界点的类型（局部极小、极大或鞍点）

E、条件数可衡量函数在不同方向上二阶导数的变化范围

答案：ABCDE

题目难度：中等

关联知识点：梯度之上：Jacobian 和Hessian 矩阵

57.对于函数

(

)，二阶导数的作用包括（）。

A、衡量函数的曲率

B、确定梯度下降步骤的效果

C、辅助判断临界点类型（如局部极小、极大点）

D、优化函数的参数选择（如确定学习率）

E、构建高阶优化算法（如牛顿法）的基础

答案：ABCDE

题目难度：中等

关联知识点：梯度之上：Jacobian 和Hessian 矩阵

58.在深度学习优化中，牛顿法（）。

A、基于二阶泰勒展开近似函数

B、利用 Hessian 矩阵信息

C、对于正定二次函数可能一步到位找到最小值

D、在接近局部极小点时比梯度下降更快

E、在鞍点附近可能出现问题

答案：ABCDE

题目难度：中等

关联知识点：梯度之上：Jacobian 和Hessian 矩阵

59.下列关于梯度下降和牛顿法的比较，正确的有（）。

A、梯度下降是一阶优化算法，牛顿法是二阶优化算法

B、梯度下降仅用梯度信息，牛顿法用 Hessian 矩阵信息

C、牛顿法在某些情况下收敛更快，但计算 Hessian 矩阵可能更复杂

D、梯度下降可能受病态条件影响，牛顿法受鞍点影响

E、二者都可用于深度学习中的函数优化，但适用场景有别

答案：ABCDE

题目难度：中等

关联知识点：梯度之上：Jacobian 和Hessian 矩阵

60.函数的 Lipschitz 连续性质在深度学习中的意义在于（）。

A、量化函数输入微小变化导致输出微小变化的假设

B、为优化算法提供一定理论保证

C、约束函数变化速度，利于算法收敛分析

D、使深度学习中很多优化问题经修改可达此性质

E、能确保优化算法找到全局最优解

答案：ABCD

题目难度：中等

关联知识点：梯度之上：Jacobian 和Hessian 矩阵

61.凸优化（）。

A、适用于 Hessian 处处半正定的凸函数

B、其算法能保证找到全局最小点

C、可作为深度学习算法的子程序

D、分析思路对证明深度学习算法收敛性有用

E、但深度学习多数问题难表为凸优化形式

答案：ABCDE

题目难度：中等

关联知识点：梯度之上：Jacobian 和Hessian 矩阵

62.XOR函数的特点包括（）。

A、是两个二进制值的运算

B、当两个二进制值中恰好有一个为1时返回1

C、其余情况下返回0

D、可以用线性模型直接准确表示

E、是深度学习中常用的基准函数

答案：ABC

题目难度：中等

关联知识点：实例：学习XOR

63.在学习 XOR 函数时，若采用线性模型会出现的问题有（）。

A、无法拟合训练集

B、只能得到一个常数输出

C、不能利用输入值的相互关系

D、模型复杂度过高

E、训练过程不稳定

答案：ABC

题目难度：中等

关联知识点：实例：学习XOR

64.前馈神经网络中激活函数的作用包括（）。

A、引入非线性特性

B、使网络能学习复杂模式

C、决定网络的收敛速度

D、改善模型的泛化能力

E、简化网络的计算复杂度

答案：ABD

题目难度：中等

关联知识点：实例：学习XOR

65.在处理 XOR 问题的神经网络训练中，基于梯度的优化算法（）。

A、可找到使误差减小的参数

B、可能收敛到全局最小点

C、收敛点受参数初始值影响

D、比随机搜索算法效率高

E、一定能找到最优解

答案：ABCD

题目难度：中等

关联知识点：实例：学习XOR

66.与线性模型相比，解决 XOR 问题的神经网络具有以下优势（）。

A、能处理非线性问题

B、可学习输入数据的复杂特征表示

C、泛化能力更强

D、计算复杂度更低

E、对数据噪声更鲁棒

答案：ABC

题目难度：中等

关联知识点：实例：学习XOR

67.学习 XOR 函数的例子对深度学习的意义在于（）。

A、展示神经网络处理简单非线性问题的能力

B、说明激活函数的重要性

C、为理解神经网络训练过程提供基础

D、体现基于梯度优化算法的必要性

E、表明深度学习可处理复杂逻辑运算

答案：ABCDE

题目难度：中等

关联知识点：实例：学习XOR

68.若改变解决 XOR 问题的神经网络的结构，可能影响（）。

A、模型的表达能力

B、训练的收敛速度

C、模型的泛化能力

D、对 XOR 函数的拟合精度

E、所需的训练数据量

答案：ABCDE

题目难度：中等

关联知识点：实例：学习XOR

69.在学习 XOR 函数过程中，损失函数的选择（）。

A、影响模型训练的目标

B、决定优化算法的收敛性

C、与模型的复杂度相关

D、需考虑数据的特点

E、可根据实际应用调整

答案：ABCDE

题目难度：中等

关联知识点：实例：学习XOR

70.最大似然学习条件分布中，代价函数的特点包括（）。

A、等价于负的对数似然

B、与交叉熵相关

C、具体形式取决于模型

D、可能包含不依赖参数的项

E、可自动确定无需设计

答案：ABCD

题目难度：中等

关联知识点：使用最大似然学习条件分布

71.负的对数似然代价函数有助于（）。

A、避免激活函数饱和导致的梯度问题

B、消除输出单元中指数函数的饱和效果

C、提高模型的泛化能力

D、简化模型计算复杂度

E、确保代价函数有最小值

答案：AB

题目难度：中等

关联知识点：使用最大似然学习条件分布

72.对于离散型输出变量的模型（）。

A、多数不能表示概率零和一

B、可无限接近概率零和一

C、应用交叉熵代价函数可能无最小值

D、正则化技术可修正学习问题

E、比实值输出变量模型简单

答案：ABCD

题目难度：中等

关联知识点：使用最大似然学习条件分布

73.学习条件统计量时（）。

A、可通过变分法求解优化问题

B、能将代价函数看作泛函

C、目标可能是学习的均值

D、需强大神经网络表示函数类

E、变分法对理解本章内容必要

答案：ABCD

题目难度：中等

关联知识点：使用最大似然学习条件分布

74.从变分法导出的结果包括（）。

A、最小化均方误差代价函数可得预测均值的函数

B、函数需在优化类里

C、需无穷多真实数据样本训练

D、可用于确定模型参数

E、与最大似然学习条件分布无关

答案：ABC

题目难度：中等

关联知识点：使用最大似然学习条件分布

75.在深度前馈网络中（）。

A、权重衰减是常用正则化策略

B、最大似然学习可结合正则项

C、代价函数设计影响模型性能

D、输出单元激活函数影响梯度

E、可同时学习概率分布和条件统计量

答案：ABCDE

题目难度：中等

关联知识点：使用最大似然学习条件分布

76.以下关于神经网络代价函数的说法，正确的有（）。

A、梯度特性影响学习算法指引

B、需避免饱和函数破坏梯度

C、可根据输出变量类型选择

D、正则化可修正其无最小值问题

E、与模型结构相互关联

答案：ABCDE

题目难度：中等

关联知识点：使用最大似然学习条件分布

77.若模型对实值输出变量控制输出分布密度（）。

A、可能使交叉熵趋负无穷

B、需正则化技术修正

C、影响模型训练效果

D、与模型参数化方式有关

E、可通过调整方差避免

答案：ABC

题目难度：中等

关联知识点：使用最大似然学习条件分布

78.深度前馈网络中使用最大似然学习（）。

A、统一了代价函数确定方式

B、为模型训练提供理论基础

C、需考虑输出单元特性

D、与传统学习方法有本质区别

E、可应用于多种类型的任务

答案：ABCE

题目难度：中等

关联知识点：使用最大似然学习条件分布

79.学习条件统计量时，以下说法正确的有（）。

A、可将代价函数看作泛函

B、目标可能是学习的均值

C、可通过变分法求解优化问题

D、需用无穷多真实数据样本训练才能得到理想函数

E、理解变分法对理解相关内容并非必要

答案：ABCDE

题目难度：中等

关联知识点：学习条件统计量

80.变分法在学习条件统计量中的应用包括（）。

A、导出最小化均方误差代价函数可得预测均值的函数

B、导出最小化平均绝对误差代价函数可得预测中位数的函数

C、为选择合适的代价函数提供理论依据

D、确定模型参数的取值范围

E、优化神经网络的结构

答案：ABC

题目难度：中等

关联知识点：学习条件统计量

81.对于实值输出变量的模型，若控制输出分布密度，可能（）。

A、导致交叉熵趋向负无穷

B、需正则化技术修正学习问题

C、影响模型的训练效果

D、改变模型的复杂度

E、使模型更易收敛

答案：ABC

题目难度：中等

关联知识点：学习条件统计量

82.以下关于均方误差和平均绝对误差的说法，正确的有（）。

A、均方误差在基于梯度优化时可能成效不佳

B、平均绝对误差在基于梯度优化时可能成效不佳

C、二者在某些情况下不如交叉熵代价函数受欢迎

D、与饱和的输出单元结合会产生小梯度问题

E、可用于准确预测的所有取值

答案：ABCD

题目难度：中等

关联知识点：学习条件统计量

83.选择输出单元时需要考虑（）。

A、数据分布特点

B、与代价函数的相关性

C、能否用于隐藏单元

D、对模型复杂度的影响

E、对梯度计算的影响

答案：ABCDE

题目难度：中等

关联知识点：学习条件统计量

84.线性输出单元（）。

A、基于仿射变换

B、不具有非线性

C、可产生条件高斯分布的均值

D、常用于特定分布的参数学习

E、其输出可直接作为最终预测结果

答案：ABCDE

题目难度：中等

关联知识点：学习条件统计量

85.若模型可控制实值输出变量的输出分布密度，可能引发的问题有（）。

A、交叉熵计算异常

B、学习过程不稳定

C、模型过拟合

D、需调整代价函数形式

E、增加正则化难度

答案：AB

题目难度：中等

关联知识点：学习条件统计量

86.学习条件统计量与学习完整概率分布的区别在于（）。

A、目标不同，前者侧重特定统计量，后者是完整分布

B、所用数学工具可能不同，前者可能用变分法

C、对模型结构要求不同，前者需更强大神经网络

D、代价函数选择标准不同，前者依统计量特性选

E、训练数据需求不同，前者可能需更多数据

答案：ABD

题目难度：中等

关联知识点：学习条件统计量

87.以下哪些因素会影响学习条件统计量时的函数选择？（）

A、数据的分布特征

B、模型的复杂度

C、期望学习的统计量类型

D、可用的计算资源

E、优化算法的特性

答案：ABCDE

题目难度：中等

关联知识点：学习条件统计量

88.关于代价函数在深度学习中的作用，以下说法正确的有（）。

A、指导模型参数学习

B、反映模型与数据的拟合程度

C、与输出单元相互影响

D、可通过设计调整模型行为

E、决定模型的泛化能力

答案：ABCDE

题目难度：中等

关联知识点：学习条件统计量

89.用于高斯输出分布的线性单元的特点包括（）。

A、基于仿射变换

B、不具有非线性

C、常用于产生条件高斯分布的均值

D、易于采用基于梯度的优化算法

E、能直接对协方差矩阵进行有效参数化

答案：ABCD

题目难度：中等

关联知识点：用于高斯输出分布的线性单元

90.学习高斯分布的协方差矩阵时（）。

A、线性输出层难以满足协方差矩阵正定限定

B、需选择合适输出单元进行参数化

C、最大似然框架有助于学习协方差矩阵

D、协方差矩阵的学习影响模型性能

E、线性输出单元完全无法参与协方差矩阵学习

答案：ABCD

题目难度：中等

关联知识点：用于高斯输出分布的线性单元

91.以下关于线性输出单元在优化算法中的表现，正确的有（）。

A、因不饱和而适用于多种优化算法

B、相比饱和的输出单元，梯度计算更稳定

C、可与不同代价函数配合使用

D、优化过程中参数调整方向更易确定

E、其优化性能不受数据规模影响

答案：ABCD

题目难度：中等

关联知识点：用于高斯输出分布的线性单元

92.选择用于高斯输出分布的线性单元的原因可能包括（）。

A、模型对输出的线性要求

B、计算效率高

C、对简单分布的良好拟合能力

D、与其他模型组件兼容性好

E、易于理论分析和推导

答案：ABCDE

题目难度：中等

关联知识点：用于高斯输出分布的线性单元

93.若改变线性输出单元的权重矩阵W和偏置向量b，可能影响（）。

A、条件高斯分布的均值

B、模型的预测结果

C、优化算法的收敛速度

D、代价函数的值

E、数据的分布特征

答案：ABCD

题目难度：中等

关联知识点：用于高斯输出分布的线性单元

94.与其他输出单元相比，用于高斯输出分布的线性单元在（）方面具有独特性。
A、输出变换方式
B、对高斯分布参数的处理
C、优化算法适应性
D、与隐藏层的交互方式
E、应对数据噪声的能力
答案：ABC

题目难度：中等

关联知识点：用于高斯输出分布的线性单元

95.在深度学习模型中，线性输出单元的作用包括（）。

A、完成从隐藏特征到输出的转换

B、为模型提供可解释性

C、辅助确定模型复杂度

D、参与模型的训练和优化

E、调整数据的维度和尺度

答案：ABCD

题目难度：中等

关联知识点：用于高斯输出分布的线性单元

96.对于高斯输出分布的线性单元的研究，有助于（）。

A、深入理解深度学习模型的输出机制

B、优化高斯分布相关的模型性能

C、拓展线性模型在深度学习中的应用

D、完善代价函数与输出单元的协同设计

E、推动深度学习理论的发展

答案：ABCDE

题目难度：中等

关联知识点：用于高斯输出分布的线性单元

97.使用线性单元通过阈值限制来定义 Bernoulli 分布的条件概率分布时，存在的问题包括（）。

A、无法保证输出为有效概率

B、当参数值处于单位区间外时梯度为 0

C、计算复杂度高

D、容易过拟合

E、不适用于大数据集

答案：AB

题目难度：中等

关联知识点：用于Bernoulli 输出分布的sigmoid 单元

98.sigmoid 输出单元的特点包括（）。

A、由线性层和 sigmoid 激活函数组成

B、可将线性层输出转化为有效概率

C、用于学习 Bernoulli 分布时结合最大似然效果好

D、其饱和性会阻碍基于梯度的学习

E、输出值恒大于 0 小于 1

答案：ABCE

题目难度：中等

关联知识点：用于Bernoulli 输出分布的sigmoid 单元

99.在学习由 sigmoid 参数化的 Bernoulli 分布时，最大似然方法相比其他方法的优势有（）。

A、损失函数中的 log 可抵消 sigmoid 中的指数效果

B、能避免 sigmoid 饱和性对梯度的不良影响

C、可保证模型快速收敛

D、对所有数据集都有最佳效果

E、不需要调整参数即可达到较好性能

答案：AB

题目难度：中等

关联知识点：用于Bernoulli 输出分布的sigmoid 单元

100.以下关于 sigmoid 激活函数在预测二值型变量任务中的应用描述，正确的有（）。

A、在大部分定义域内饱和

B、当z取绝对值很大的正值或负值时饱和

C、饱和时基于梯度的学习困难

D、与双曲正切函数紧密相关

E、常用于隐藏层和输出层

答案：ABC

题目难度：中等

关联知识点：用于Bernoulli 输出分布的sigmoid 单元

101.对于 Bernoulli 输出分布的预测，sigmoid 单元与其他单元相比（）。

A. 能更好地处理概率在[0,1]区间的约束

B. 可利用最大似然学习原理优化

C. 在处理大规模数据集时更具优势

D. 对数据分布的适应性更强

E. 其输出可直观反映类别概率

答案：ABE

题目难度：中等

关联知识点：用于Bernoulli 输出分布的sigmoid 单元

102.在基于梯度的学习中，sigmoid 输出单元为保证有效学习采取的措施包括（）。

A、结合最大似然估计

B、设计合理的损失函数形式

C、利用softplus函数特性处理梯度

D、避免输出值饱和

E、调整线性层参数

答案：ABC

题目难度：中等

关联知识点：用于Bernoulli 输出分布的sigmoid 单元

103.以下关于预测二值型变量 y 的值的任务中，概率分布定义及相关操作的描述，正确的有（）。

A、可通过构造非归一化概率分布并归一化得到 Bernoulli 分布

B、基于指数和归一化操作确定概率分布形式

C、变量 z 的取值影响最终概率分布

D、分对数在定义分布过程中起关键作用

E、不同的分布定义方式影响模型训练和预测效果

答案：ABCDE

题目难度：中等

关联知识点：用于Bernoulli 输出分布的sigmoid 单元

104.在处理 Bernoulli 输出分布时，sigmoid 单元的设计考虑因素包括（）。

A、满足概率取值范围要求

B、优化基于梯度的学习过程

C、适应不同数据集特点

D、与其他网络层有效协作

E、简化计算复杂度

答案：ABDE

题目难度：中等

关联知识点：用于Bernoulli 输出分布的sigmoid 单元

105.softmax 函数的特点包括（）。

A、可用于表示具有 n 个可能取值的离散型随机变量分布

B、常用于分类器输出表示概率分布

C、是sigmoid 函数的扩展

D、输出向量元素之和为 1

E、其导数恒大于 0

答案：ABCD

题目难度：中等

关联知识点：用于Multinoulli 输出分布的softmax 单元

106.在使用 softmax 函数时，关于对数似然函数的描述正确的有（）。

A、最大化对数似然可通过抵消 softmax 中的 exp 实现优化

B、对数似然中的 log 可使学习在一定条件下持续进行

C、对数似然函数可直观反映模型对不同类别预测的准确性惩罚

D、当正确答案具有 softmax 最大输入时，样本对训练代价贡献可能很小

E、对数似然函数是 softmax 唯一适用的损失函数

答案：ABCD

题目难度：中等

关联知识点：用于Multinoulli 输出分布的softmax 单元

107. softmax 函数可能饱和的情况及影响包括（）。

A、输入值差异极端时输出值可能饱和

B、饱和时基于 softmax 的许多代价函数也饱和

C、若损失函数不补偿饱和情况会导致学习困难

D、饱和时梯度消失无法继续优化

E、无论输入值如何变化，softmax 函数都不易饱和

答案：ABCD

题目难度：中等

关联知识点：用于Multinoulli 输出分布的softmax 单元

108.以下关于 softmax 函数与其他函数关系的描述正确的有（）。

A、与 sigmoid 函数类似，都用于处理概率分布

B、相比 argmax 函数，softmax 是连续可微的 “软化” 版本

C、与 max 函数的 “软化” 版本 softmax (z)⊤z 有区别

D、可看作是线性函数在多分类问题上的扩展

E、与指数函数结合紧密用于构建概率分布

答案：ABCE

题目难度：中等

关联知识点：用于Multinoulli 输出分布的softmax 单元

109.在处理 Multinoulli 输出分布时，softmax 单元相比其他单元的优势在于（）。

A、能自然地表示多类别概率分布且归一化

B、结合对数似然优化效果好

C、对输入值范围适应性强

D、可有效处理类别不平衡问题

E、能在模型内部灵活选择变量选项

答案：AB

题目难度：中等

关联知识点：用于Multinoulli 输出分布的softmax 单元

110.当 softmax 函数的输入 z 满足以下哪些条件时会出现饱和现象？（）

A、所有元素值非常接近且很大

B、所有元素值非常接近且很小

C、一个元素远大于其他元素且为最大值

D、一个元素远小于其他元素且为最小值

E、元素值呈均匀分布

答案：AC

题目难度：中等

关联知识点：用于Multinoulli 输出分布的softmax 单元

111.以下哪些方法可缓解 softmax 函数饱和对学习的影响？（）

A、使用对数似然作为损失函数

B、采用数值稳定的 softmax 变体

C、调整神经网络结构减少 softmax 输入差异

D、增加训练数据多样性

E、对 softmax 输出进行后处理

答案：ABC

题目难度：中等

关联知识点：用于Multinoulli 输出分布的softmax 单元

112.在实际应用中，选择 softmax 单元处理 Multinoulli 输出分布的考虑因素包括（）

A. 数据的类别数量及分布特点

B. 模型的计算资源与效率需求

C. 对模型可解释性的要求

D. 训练数据的规模与质量

E. 与其他网络层的兼容性及协同效果

答案：ABCDE

题目难度：中等

关联知识点：用于Multinoulli 输出分布的softmax 单元

113.以下关于神经网络输出层设计与代价函数选择的描述，正确的有（）。

A、线性、sigmoid 和 softmax 是常见输出单元类型

B、最大似然原则可指导多种输出层代价函数设计

C、代价函数形式取决于输出层对 y 分布参数的表示

D、不同代价函数影响模型学习效率与效果

E、可随意选择代价函数而无需考虑输出分布

答案：ABCD

题目难度：中等

关联知识点：其他的输出类型

114.在学习y的条件高斯分布方差时，以下哪些说法正确？（）

A、方差为常数时有简单解析表达式

B、可将方差作为分布属性由模型控制学习

C、可用精度或方差参数化高斯分布

D、精度参数化利于梯度计算稳定性

E、方差参数化计算复杂度更低

答案：ABCD

题目难度：中等

关联知识点：其他的输出类型

115.对于高斯混合输出的混合密度网络，其特点包括（）。

A、可表示多峰回归中的多种输出模式

B、能控制输出的方差

C、神经网络需有三个特定输出

D、常用于语音生成与物理运动模型

E、混合组件形成 Multinoulli 分布

答案：ABCDE

题目难度：中等

关联知识点：其他的输出类型

116.混合密度网络输出的高斯混合条件分布中，关于各输出的约束条件正确的有（）。

A、混合组件由 softmax 确保正且和为 1

B、均值输出通常无非线性且无约束

C、协方差常用对角矩阵避免高计算量行列式计算

D、均值输出需为正定矩阵

E、协方差矩阵不受任何限制

答案：ABC

题目难度：中等

关联知识点：其他的输出类型

117.在基于梯度优化混合条件高斯输出时，为解决数值不稳定问题可采用的方法有（）。

A、梯度截断

B、调整学习率

C、启发式缩放梯度

D、改变损失函数形式

E、增加训练数据量

答案：AC

题目难度：中等

关联知识点：其他的输出类型

118.以下关于神经网络对不同类型分布输出学习的描述，正确的有（）。

A、学习高斯分布方差可通过不同参数化方式实现

B、多峰回归中高斯混合输出比单一高斯输出更具优势

C、学习满秩协方差矩阵虽计算代价高但更准确

D、不同分布输出学习的难易程度受多种因素影响

E、输出分布类型选择仅取决于数据特点

答案：ABD

题目难度：中等

关联知识点：其他的输出类型

119.在设计神经网络处理复杂输出（如字符序列形成句子）时，以下哪些技术或原理可发挥作用？（）

A、最大似然原理

B、循环神经网络结构

C、对输出变量施加结构化约束

D、采用预训练模型

E、引入注意力机制

答案：ABC

题目难度：中等

关联知识点：其他的输出类型

120.以下关于高斯分布参数化在神经网络输出应用的说法，正确的有（）。

A、用精度参数化可避免方差参数化在零附近的不稳定问题

B、对角精度矩阵计算对数似然的梯度表现良好

C、标准差参数化因涉及除法和平方运算可能导致学习困难

D、不同参数化方式对模型训练和预测性能有显著影响

E、可随意切换参数化方式而不影响模型整体效果

答案：ABCD

题目难度：中等

关联知识点：其他的输出类型

121.从模型应用场景角度看，高斯混合输出适用于以下哪些情况？（）

A、语音生成中模拟不同语音特征变化

B、物理运动建模中描述物体多种运动状态概率分布

C、图像分类中区分不同类别图像

D、时间序列预测中捕捉数据波动模式多样性

E、文本生成中控制生成文本风格变化

答案：ABD

题目难度：中等

关联知识点：其他的输出类型

122.以下属于整流线性单元扩展的有（）。

A、绝对值整流

B、渗漏整流线性单元

C、参数化整流线性单元

D、maxout 单元

E、双曲正切函数

答案：ABCD

题目难度：中等

关联知识点：整流线性单元及其扩展

123.绝对值整流的应用场景及特点包括（）。

A、用于图像对象识别

B、寻找输入照明极性反转下不变特征

C、固定参数ai=-1

D、优化难度大

E、输出恒为正

答案：ABC

题目难度：中等

关联知识点：整流线性单元及其扩展

124.渗漏整流线性单元（Leaky ReLU）的优势在于（）。

A、解决了整流线性单元在Z＜0时梯度为0的问题

B、通过固定小斜率（如 0.01）接收梯度

C、性能优于所有其他激活函数

D、计算复杂度低

E、能自适应调整激活状态

答案：AB

题目难度：中等

关联知识点：整流线性单元及其扩展

125. maxout 单元的优点包括（）。

A、可学习分段线性凸函数

B、能以任意精确度近似任何凸函数

C、可减少下一层权重数（特定条件下）

D、具有冗余抵抗灾难遗忘

E、计算效率高

答案：ABCD

题目难度：中等

关联知识点：整流线性单元及其扩展

126.在深度前馈网络中，整流线性单元及其扩展对网络训练的影响有（）。

A、改善梯度传播特性

B、影响网络收敛速度

C、改变网络表达能力

D、与其他层协同工作改变整体性能

E、决定网络结构复杂度

答案：ABCD

题目难度：中等

关联知识点：整流线性单元及其扩展

127.整流线性单元在初始化时将偏置设为小正值的作用有（）。

A、使单元易激活利于梯度计算

B、避免在训练初期过多单元输出为 0

C、提高网络对小信号的敏感度

D、辅助确定网络初始状态

E、减少训练过程中的波动

答案：AB

题目难度：中等

关联知识点：整流线性单元及其扩展

128.与 logistic sigmoid 和双曲正切函数相比，整流线性单元及其扩展（）。

A、不易出现饱和现象影响梯度学习

B、优化过程更稳定高效

C、对输入变化响应更灵敏（激活时）

D、输出范围更符合实际需求

E、更适用于深层网络隐藏层

答案：ABCE

题目难度：中等

关联知识点：整流线性单元及其扩展

129.选择整流线性单元及其扩展作为隐藏单元时，需要考虑的因素有（）。

A、任务复杂度与数据特点

B、计算资源与训练时间限制

C、与其他层激活函数的兼容性

D、对模型可解释性的要求

E、网络架构的整体设计理念

答案：ABCDE

题目难度：中等

关联知识点：整流线性单元及其扩展

130. logistic sigmoid 函数的特点包括（）。

A、常用于预测二值型变量取值为 1 的概率

B、大部分定义域内饱和

C、与双曲正切函数紧密相关

D、作为隐藏单元时不利于基于梯度的学习

E、输出范围在 (0, 1)

答案：ABCDE

题目难度：中等

关联知识点：logistic sigmoid与双曲正切函数

131.双曲正切函数作为激活函数的优势有（）。

A、在0附近类似单位函数，便于训练

B、相比 logistic sigmoid 函数，饱和性问题稍轻

C、可用于多种神经网络结构

D、导数计算相对简单

E、能更好地处理非线性问题

答案：AB

题目难度：中等

关联知识点：logistic sigmoid与双曲正切函数

132.在深度前馈网络中，sigmoid 单元和双曲正切函数适用的场景有（）。

A、sigmoid 单元可作二值型变量输出预测

B、双曲正切函数可用于某些特定结构网络训练

C、两者都可在数据分布复杂时作为隐藏单元尝试

D、当网络对输出范围要求严格在 (-1, 1) 时选双曲正切

E、当需近似0 - 1分布输出时选sigmoid单元

题目难度：中等

关联知识点：logistic sigmoid与双曲正切函数

133.以下关于 sigmoid 与双曲正切函数对神经网络训练影响的描述，正确的有（）。

A、sigmoid 饱和性可能导致梯度消失，阻碍训练优化

B、双曲正切函数在一定程度上缓解了 sigmoid 的饱和问题，但仍有局限

C、选择合适代价函数可部分抵消 sigmoid 饱和性对训练的不良影响

D、网络层数增加会加剧 sigmoid 函数饱和性带来的问题

E、初始参数设置对使用这两个函数的网络训练收敛影响较大

答案：ABCDE

题目难度：中等

关联知识点：logistic sigmoid与双曲正切函数

134.与整流线性单元相比，logistic sigmoid 与双曲正切函数的劣势体现在（）。

A、易出现饱和问题影响梯度传播

B、优化过程更复杂且不稳定

C、对输入微小变化响应不够灵敏（饱和时）

D、输出特性在某些任务中不如整流线性单元符合需求

E、计算效率相对较低

答案：ABCD

题目难度：中等

关联知识点：logistic sigmoid与双曲正切函数

135.在神经网络发展历程中，logistic sigmoid 与双曲正切函数曾被广泛使用的原因包括（）。

A、早期研究对激活函数特性认识局限

B、其数学形式便于理论推导与分析

C、在简单任务中能满足基本需求

D、当时计算资源有限，其计算复杂度可接受

E、与其他网络组件兼容性较好

答案：ABC

题目难度：中等

关联知识点：logistic sigmoid与双曲正切函数

136.若将 sigmoid 单元用于隐藏层，可能引发的问题有（）。

A、梯度消失使模型难以收敛

B、模型易陷入局部最优解

C、增加训练时间与计算成本

D、对噪声数据过度敏感

E、降低模型泛化能力

答案：ABCE

题目难度：中等

关联知识点：logistic sigmoid与双曲正切函数

137.当尝试改进基于 sigmoid 或双曲正切函数的神经网络性能时，可采取的策略有（）。

A、结合其他激活函数构建混合单元

B、采用正则化方法缓解过拟合

C、优化网络架构（如调整层数、神经元连接方式）

D、对输入数据进行预处理和归一化

E、引入自适应学习率算法

答案：ABCDE

题目难度：中等

关联知识点：logistic sigmoid与双曲正切函数

138.以下关于 sigmoid 与双曲正切函数在循环网络、概率模型及自编码器中应用的说法，正确的有（）。

A、循环网络中 sigmoid 单元可处理序列信息，但需注意饱和性

B、概率模型中 sigmoid 可用于构建概率分布，但可能影响采样效率

C、自编码器中双曲正切函数可在特定结构下帮助提取特征

D、这些场景中因结构特性对激活函数有额外要求

E、新的研究方向尝试改进或替换这两个函数以提升性能

答案：ABCDE

题目难度：中等

关联知识点：logistic sigmoid与双曲正切函数

139.从激活函数设计角度看，logistic sigmoid 与双曲正切函数的设计思路为后续研究提供的启示有（）。

A、需平衡非线性与可优化性

B、关注函数饱和性对学习的影响及应对方法

C、考虑函数在不同网络结构和任务中的适应性

D、探索与多种网络组件协同工作的机制

E、结合生物神经元特性改进函数形式

答案：ABCD

题目难度：中等

关联知识点：logistic sigmoid与双曲正切函数

140.关于在 MNIST 数据集上测试新激活函数的描述，正确的有（）。

A、可发现与传统激活函数表现相当的新函数

B、测试目的是提高网络训练速度

C、未发布的激活函数可能表现良好

D、误差率可作为评估激活函数性能的指标之一

E、测试结果受数据集特性影响

答案：ACDE

题目难度：中等

关联知识点：其他隐藏单元

141.对于无激活函数的神经网络层，采用分解权重矩阵方式减少参数数量时（）。

A、需权衡参数减少与模型表达能力

B、分解方法可能影响网络收敛性

C、适用于处理高维数据以降低计算负担

D、可通过调整

值优化网络性能

E、对不同类型任务效果差异大

答案：ABCDE

题目难度：中等

关联知识点：其他隐藏单元

142. softmax 单元用作隐藏单元时（）。

A、为学习内存操作高级结构提供支持

B、其概率分布特性有助于信息处理

C、需结合特定网络架构发挥作用

D、相比其他隐藏单元，计算复杂度较低

E、可处理具有复杂依赖关系的数据

答案：ABC

题目难度：中等

关联知识点：其他隐藏单元

143. softplus 函数虽有处处可导等特性，但在实际应用中（）。

A、不如整流线性单元在函数近似任务表现好

B、可能因不完全饱和影响模型稳定性

C、其平滑性在某些情况下可减少过拟合

D、与其他激活函数组合使用可能改善效果

E、受数据噪声影响较大，鲁棒性欠佳

答案：ABD

题目难度：中等

关联知识点：其他隐藏单元

144.硬双曲正切函数的优势在于（）。

A、输出有界可防止梯度爆炸等问题

B、与其他有界函数相比计算效率较高

C、在特定任务中可简化模型输出范围处理

D、对输入变化敏感度可调节（通过参数）

E、可作为 tanh 和整流线性单元替代在部分场景试用

答案：ACE

题目难度：中等

关联知识点：其他隐藏单元

145.在探索新隐藏单元类型过程中，需要考虑的因素有（）。

A、与现有网络架构兼容性

B、对不同类型数据分布适应性

C、计算复杂度与资源消耗

D、理论可解释性与数学特性

E、对超参数调整的敏感性

答案：ABCDE

题目难度：中等

关联知识点：其他隐藏单元

146.以下关于隐藏单元多样性的说法正确的有（）。

A、多种隐藏单元为不同任务提供灵活选择

B、不同隐藏单元组合可构建复杂功能网络

C、研究隐藏单元多样性利于推动理论创新

D、任务需求决定隐藏单元选择及组合方式

E、隐藏单元多样性可提升模型抗干扰能力

答案：ABCD

题目难度：中等

关联知识点：其他隐藏单元

147.从激活函数发展历程看，新隐藏单元研发趋势包括（）。

A、结合生物神经元特性启发设计灵感

B、提升函数在复杂任务（如图像、语音处理）中的性能

C、降低计算复杂度以适应大规模数据与深度网络

D、增强对梯度消失和梯度爆炸问题的鲁棒性

E、提高函数在小样本学习场景下的泛化能力

答案：ABCDE

题目难度：中等

关联知识点：其他隐藏单元

148.在神经网络中，隐藏单元与其他组件（如输入层、输出层、损失函数）协同工作时（）。

A、输入层数据分布影响隐藏单元激活模式

B、隐藏单元输出特性决定损失函数选择策略

C、输出层任务类型约束隐藏单元设计方向

D、隐藏单元参数更新受整体网络优化算法调控

E、不同组件间的交互影响网络收敛速度与精度

答案：ABCDE

题目难度：中等

关联知识点：其他隐藏单元

149.万能近似定理的意义包括（）。

A、表明前馈网络可近似任意函数（满足条件下）

B、为网络架构设计提供理论基础

C、揭示了激活函数选择的重要性

D、证明深度学习模型的优越性

E、指导优化算法选择方向

答案：ABC

题目难度：中等

关联知识点：万能近似性质和深度

150.影响前馈网络学习函数能力的因素有（）。

A、网络深度与宽度

B、激活函数特性

C、优化算法性能

D、数据分布情况

E、训练样本数量

答案：ABCDE

题目难度：中等

关联知识点：万能近似性质和深度

151.对于浅层网络和深层网络在函数近似方面，以下说法正确的有（）。

A、浅层网络在某些情况下需指数级隐藏单元近似函数

B、深层网络可减少表示函数所需单元数和泛化误差

C、深层网络一定比浅层网络学习效率高

D、浅层网络在简单函数近似上有优势

E、二者在不同函数族近似上各有优劣

答案：ABE

题目难度：中等

关联知识点：万能近似性质和深度

152.在深度整流网络中（）。

A、线性区域数量与网络深度呈指数关系

B、可通过折叠操作创造指数级分段线性区域

C、相比浅层网络在特定函数表示上更高效

D、其原理可通过几何直观解释

E、每个隐藏单元都能独立决定函数输出形式

答案：ABCD

题目难度：中等

关联知识点：万能近似性质和深度

153.选择深度模型可能基于的原因包括（）。

A、符合函数由简单函数组合的先验信念

B、从表示学习角度发现潜在变差因素

C、类比函数为多步骤计算机程序

D、实际经验中泛化性能更好

E、减少计算资源消耗

答案：ABCD

题目难度：中等

关联知识点：万能近似性质和深度

154.以下关于万能近似定理中激活函数的说法，正确的有（）。

A、原始定理以特殊饱和激活函数描述，如 logistic sigmoid

B、整流线性单元也适用万能近似定理

C、不同激活函数影响网络近似能力和学习效率

D、激活函数的导数特性与近似函数导数相关

E、可随意替换激活函数而不影响近似效果

答案：ABCD

题目难度：中等

关联知识点：万能近似性质和深度

155.在二进制值向量函数近似情境下（）。

A. 函数数量随向量维度指数增长

B. 选择函数所需位数与维度相关

C. 浅层网络近似可能面临高复杂度

D. 深层网络可能更高效处理此类近似

E. 可通过特定编码方式降低函数表示难度

答案：ABCD

题目难度：中等

关联知识点：万能近似性质和深度

156.从函数近似角度看，网络架构设计需考虑（）。

A、深度与宽度权衡

B、激活函数搭配

C、数据规模与特性适配

D、优化算法协同

E、计算资源限制

答案：ABCDE

题目难度：中等

关联知识点：万能近似性质和深度

157.深层网络在学习函数时的优势体现在（）。

A、对复杂函数模式概括能力强

B、减少单元数量同时保持近似精度

C、应对高维数据时更具潜力

D、可学习具有层次结构的函数

E、提升模型鲁棒性和抗干扰能力

答案：ABCD

题目难度：中等

关联知识点：万能近似性质和深度

158.以下关于万能近似定理拓展及应用的表述，正确的有（）。

A、从逻辑门电路到多种网络模型逐步扩展适用范围

B、为新网络架构和激活函数研发提供理论支撑

C、指导实际任务中网络架构选择与优化

D、促使对函数学习本质和深度学习能力的深入探究

E、确保任何情况下都能找到最优网络架构

答案：ABCD

题目难度：中等

关联知识点：万能近似性质和深度

159.计算图的特点包括（）。

A、用节点表示变量

B、通过有向边表示计算关系

C、操作可以复合构建复杂函数

D、有助于理解和计算导数

E、只适用于神经网络计算

答案：ABCD

题目难度：中等

关联知识点：计算图

160.在计算图中，操作的定义具有以下特性（）。

A、是简单函数

B、可以有多个输入变量

C、通常返回单个输出变量

D、其种类有一定限制

E、决定了计算图的结构和功能

答案：ABCE

题目难度：中等

关联知识点：计算图

161.以下关于计算图中变量和操作的关系，正确的有（）。

A、变量是操作的输入或输出

B、操作作用于变量产生新的变量

C、变量的类型决定可适用的操作

D、操作的顺序影响最终计算结果

E、变量的数量与操作的复杂性相关

答案：ABD

题目难度：中等

关联知识点：计算图

162.计算图在反向传播算法中的作用包括（）。

A、提供了一种精确描述计算过程的方式

B、便于确定变量之间的依赖关系

C、有助于理解梯度的计算过程

D、可以直接计算梯度

E、优化反向传播算法的计算效率

答案：ABC

题目难度：中等

关联知识点：计算图

163.与其他表示计算的方式相比，计算图的优势在于（）。

A、更直观地展示计算流程

B、更容易处理复杂的函数关系

C、便于进行数学分析和推导

D、可以方便地引入新的操作和变量

E、对计算资源要求较低

答案：ABCD

题目难度：中等

关联知识点：计算图

164.在构建计算图时，需要考虑的因素有（）。

A、变量的类型和数量

B、操作的选择和顺序

C、计算的目的和需求

D、数据的特点和分布

E、算法的复杂度和效率

答案：ABC

题目难度：中等

关联知识点：计算图

165.计算图的应用场景包括（）。

A、机器学习算法中的计算（如神经网络、逻辑回归等）

B、科学计算中的复杂公式计算

C、工程计算中的系统建模和分析

D、优化问题中的目标函数和约束条件表示

E、数据处理和分析中的流程设计

答案：ABCDE

题目难度：中等

关联知识点：计算图

166.以下关于计算图中节点和边的说法，正确的有（）。

A、节点可以表示不同类型的数据结构

B、边的方向表示计算的先后顺序

C、节点的属性可以包含变量的取值范围等信息

D、边可以带有权重表示计算的重要性

E、节点和边的组合可以表示各种计算逻辑

答案：ABE

题目难度：中等

关联知识点：计算图

167.计算图的发展和改进方向可能包括（）。

A、支持更多类型的操作和函数

B、提高处理大规模数据的能力

C、优化计算图的存储和表示方式

D、与其他计算框架更好地集成

E、增强对动态计算和自适应计算的支持

答案：ABCDE

题目难度：中等

关联知识点：计算图

168.以下关于微积分链式法则的描述，正确的有（）。

A、可用于计算复合函数的导数

B、分为标量情况和向量情况

C、反向传播是基于链式法则的算法

D、链式法则中涉及 Jacobian 矩阵与梯度的运算

E、仅适用于实数域的函数

答案：ABCD

题目难度：中等

关联知识点：微积分中的链式法则

169.反向传播算法与链式法则的关系包括（）。

A、反向传播算法基于链式法则计算梯度

B、链式法则为反向传播算法提供理论基础

C、反向传播算法是链式法则在神经网络中的应用

D、两者都涉及 Jacobian 矩阵的运算

E、反向传播算法可以优化链式法则的计算效率

答案：ABCD

题目难度：中等

关联知识点：微积分中的链式法则

170.在将链式法则应用于张量时（）。

A、概念上与向量的反向传播相同

B、需要对张量进行重新排列（变平与重构）

C、梯度的计算方式与向量情况有本质区别

D、可以使用类似向量的记法表示张量的梯度

E、适用于任意维度的张量

答案：ABDE

题目难度：中等

关联知识点：微积分中的链式法则

171.以下关于 Jacobian 矩阵在链式法则中的作用，正确的有（）。

A、用于表示函数之间的偏导数关系

B、与梯度相乘得到变量的梯度

C、其维度取决于输入和输出变量的维度

D、在反向传播算法中起着关键的连接作用

E、不同的函数组合会导致 Jacobian 矩阵的不同形式

答案：ABCDE

题目难度：中等

关联知识点：微积分中的链式法则

172.在神经网络中，链式法则和反向传播算法的应用体现在（）。

A、计算损失函数关于权重和偏置的梯度

B、优化神经网络的参数

C、帮助理解神经网络中不同层之间的关系

D、确定神经网络的结构

E、提高神经网络的训练速度

答案：ABC

题目难度：中等

关联知识点：微积分中的链式法则

173.从数学原理角度看，链式法则的重要性包括（）。

A、是计算复杂函数导数的重要工具

B、为多元函数的求导提供统一方法

C、建立了函数复合与导数计算之间的联系

D、推动了反向传播算法等相关算法的发展

E、在优化理论、数值计算等领域有广泛应用

答案：ABCDE

题目难度：中等

关联知识点：微积分中的链式法则

174.以下关于反向传播算法中计算梯度时子表达式重复问题的说法，正确的有哪些？（）

A、在某些情况下，计算两次相同的子表达式是浪费计算资源的

B、在复杂图中，重复计算子表达式可能导致计算量呈指数增长

C、计算两次相同的子表达式一定是不可取的

D、有时计算两次相同的子表达式可以减少内存开销

E、反向传播算法总是选择重新计算子表达式以节省内存

答案：ABD

题目难度：中等

关联知识点：递归地使用链式法则来实现反向传播

175.反向传播算法中，计算图中的节点具有以下哪些特性？（）

A、每个节点表示一个变量

B、节点可以是标量、向量、矩阵、张量等类型

C、节点之间通过操作连接，操作可以是一个或多个变量的简单函数

D、节点的计算顺序对反向传播算法没有影响

E、节点的输出只能是标量

答案：ABC

题目难度：中等

关联知识点：递归地使用链式法则来实现反向传播

176.反向传播算法在计算梯度时，以下哪些操作是必要的？（）

A、计算节点关于其父节点的偏导数

B、执行乘法操作

C、执行加法操作

D、计算节点的输出值

E、对节点进行排序

答案：ABC

题目难度：中等

关联知识点：递归地使用链式法则来实现反向传播

177.以下关于反向传播算法的描述，正确的有哪些？（）

A、它可以计算任何函数的导数

B、它主要用于计算代价函数关于参数的梯度

C、它在学习算法中常用于计算其他导数以辅助学习过程

D、它仅适用于多层神经网络

E、它是一种计算链式法则的算法

答案：ABCE

题目难度：中等

关联知识点：递归地使用链式法则来实现反向传播

178.在全连接的多层 MLP 中，反向传播计算涉及到以下哪些方面？（）

A、前向传播计算参数到监督损失函数的映射

B、根据反向传播算法计算损失函数关于参数的梯度

C、调整每层的权重和偏置以减小误差

D、计算每层输出的激活值

E、选择合适的优化算法更新参数

答案：ABCDE

题目难度：中等

关联知识点：递归地使用链式法则来实现反向传播

179.反向传播算法中，以下哪些因素会影响计算梯度的效率？（）

A、计算图的复杂程度

B、子表达式的重复情况

C、存储资源的限制

D、节点的类型（标量、向量、张量等）

E、选择的操作函数

答案：ABC

题目难度：中等

关联知识点：递归地使用链式法则来实现反向传播

180.关于反向传播算法中的链式法则，以下哪些说法正确？（）

A、它用于计算复合函数的导数

B、变量

的梯度可以通过 Jacobian 矩阵和梯度相乘得到

C、反向传播算法由 Jacobian 梯度的乘积操作组成

D、链式法则仅适用于标量函数

E、从概念上讲，张量值节点的反向传播与向量的反向传播相同

答案：ABCE

题目难度：中等

关联知识点：递归地使用链式法则来实现反向传播

181.在反向传播算法中，以下关于计算图的说法正确的有哪些？（）

A、计算图中的边表示变量之间的依赖关系

B、操作是计算图中的基本元素，用于计算变量的值

C、节点的排序会影响反向传播算法的计算过程

D、计算图可以帮助直观地理解反向传播算法的计算过程

E、反向传播算法只能应用于特定结构的计算图

答案：ABCD

题目难度：中等

关联知识点：递归地使用链式法则来实现反向传播

182.全连接 MLP 中的反向传播计算涉及到以下哪些方面？（）

A、前向传播计算

B、计算损失函数关于参数的梯度

C、调整模型参数

D、计算节点的激活值

E、选择合适的优化算法

答案：ABCDE

题目难度：中等

关联知识点：全连接MLP 中的反向传播计算

183.在全连接 MLP 的反向传播计算中，以下哪些因素会影响计算成本？（）

A、图中边的数量

B、计算偏导数的复杂度

C、节点的数量

D、训练样本的数量

E、损失函数的形式

答案：ABC

题目难度：中等

关联知识点：全连接MLP 中的反向传播计算

184.全连接 MLP 的反向传播计算中，以下关于计算图的说法正确的有哪些？（）

A、计算图用于描述前向传播和反向传播的计算过程

B、计算图中的节点表示变量或操作

C、边表示变量之间的依赖关系或操作的执行顺序

D、计算图的结构会影响反向传播的计算方式

E、计算图在反向传播计算中起到辅助理解和计算的作用

答案：ABCDE

题目难度：中等

关联知识点：全连接MLP 中的反向传播计算

185.在全连接 MLP 的反向传播计算中，反向传播算法的优点包括哪些？（）

A、计算效率高，与前向传播计算次数具有相同的阶

B、能够准确计算损失函数关于参数的梯度

C、可以通过调整计算图适应不同的网络结构

D、不需要计算偏导数，减少计算复杂度

E、能够避免过拟合问题

答案：ABC

题目难度：中等

关联知识点：全连接MLP 中的反向传播计算

186.算法 6.4 中，将反向传播应用于计算图所需的相关计算可能涉及到以下哪些步骤？（）

A、运行前向传播获得网络的激活

B、初始化用于存储导数的数据结构

C、按照特定顺序计算导数

D、更新模型的参数

E、计算损失函数的值

答案：ABC

题目难度：中等

关联知识点：全连接MLP 中的反向传播计算

187.以下关于符号到数值的微分方法的说法，正确的有哪些？（）

A、采用计算图和输入数值计算梯度数值

B、不显示计算图

C、用于 Torch 和 Caffe 等库

D、计算过程与符号到符号的导数方法完全不同

E、可以计算高阶导数

答案：ABC

题目难度：中等

关联知识点：符号到符号的导数

188.符号到符号的导数方法具有以下哪些特点？（）

A、采用计算图并添加额外节点描述导数

B、导数可以再次求导得到高阶导数

C、计算图的任意子集可后续用特定数值求值

D、与符号到数值的微分方法计算原理完全相同

E、可以精确指明每个操作的计算时刻

答案：ABC

题目难度：中等

关联知识点：符号到符号的导数

189.以下哪些库采用了符号到符号的导数方法？（）

A、Theano

B、TensorFlow

C、Caffe

D、Torch

E、所有深度学习库都采用

答案：AB

题目难度：中等

关联知识点：符号到符号的导数

190.在实际使用或训练神经网络时，涉及到以下哪些关于符号和数值的操作？（）

A、构建计算图时使用符号表示变量和操作

B、前向传播时给符号输入赋予特定数值

C、反向传播计算梯度时可以基于符号表示的计算图

D、优化模型时使用梯度的数值更新参数

E、计算损失函数时只涉及符号操作

答案：ABCD

题目难度：中等

关联知识点：符号到符号的导数

191.对于计算图中的变量V，以下哪些是与之相关联的子程序？（）

A、 get_operation (V)

B、 get_consumers (V, G)

C、 get_inputs (V, G)

D、 set_value (V)

E、 calculate_gradient (V)

答案：ABC

题目难度：中等

关联知识点：一般化的反向传播

192.反向传播算法在软件实现方面，以下哪些说法正确？（）

A、深度学习软件库的用户可以对常用操作构建的图进行反向传播

B、构建反向传播新实现的软件工程师需手动推导 op.bprop 方法

C、需要向现有库添加自己操作的高级用户必须手动推导 op.bprop 方法

D、软件库提供了所有可能操作及其 bprop 方法，用户无需关心

E、软件库会根据用户需求自动生成操作的 bprop 方法

答案：ABC

题目难度：中等

关联知识点：一般化的反向传播

193.反向传播算法中，将其看作表填充算法（动态规划）的原因包括以下哪些？（）

A、利用存储的中间结果避免重复计算

B、计算图中的每个节点对应表中的一个位置存储梯度

C、通过顺序填充表条目来计算梯度

D、这种方式可以减少计算资源的使用

E、动态规划是处理此类问题的通用有效方法

答案：ABC

题目难度：中等

关联知识点：一般化的反向传播

194.在一般化的反向传播算法中，关于 Jacobian 矩阵的使用，以下哪些说法正确？（）

A、计算梯度时需要乘以 Jacobian 矩阵

B、Jacobian 矩阵用于描述变量之间的导数关系

C、每个操作的 bprop 方法与 Jacobian 向量积相关

D、Jacobian 矩阵的计算是反向传播算法的核心计算步骤

E、Jacobian 矩阵的维度与变量的维度相关

答案：ABCE

题目难度：中等

关联知识点：一般化的反向传播

195.反向传播算法的计算成本分析中，以下哪些说法正确？（）

A、计算成本与执行操作的数量有关

B、最坏情况下，前向传播步骤可能在全部个节点上运行

C、反向传播在原始图的每条边添加一个 Jacobian 向量积

D、大多数神经网络代价函数的链式结构使反向传播成本降低

E、简单方法可能因重复计算导致指数级计算成本

答案：ABCDE

题目难度：中等

关联知识点：一般化的反向传播

196.对于深度学习软件库中操作和其 bprop 方法的关系，以下哪些描述正确？（）

A、操作和其 bprop 方法共同实现了反向传播算法

B、bprop 方法是操作在反向传播中的关键部分

C、不同操作的 bprop 方法不同，取决于操作的数学定义

D、软件库提供了操作和 bprop 方法的默认实现

E、用户可以根据需要修改操作的 bprop 方法

答案：ABCDE

题目难度：中等

关联知识点：一般化的反向传播

197.在使用反向传播算法训练 MLP 的示例中，总代价函数包含（）。

A、交叉熵

B、权重衰减项

C、均方误差

D、正则项

E、偏置项

答案：ABD

题目难度：中等

关联知识点：实例：用于MLP 训练的反向传播

198.在反向传播计算中，通过交叉熵代价的路径包含以下哪些操作的反向传播规则（）。

A、矩阵乘法

B、relu

C、cross_entropy

D、sum

E、权重衰减

答案：ABC

题目难度：中等

关联知识点：实例：用于MLP 训练的反向传播

199.在MLP的计算过程中，以下哪些因素会影响计算成本（）。

A、矩阵乘法

B、激活函数

C、偏置

D、小批量中样本的数目

E、隐藏单元的数量

答案：ADE

题目难度：中等

关联知识点：实例：用于MLP 训练的反向传播

200.在反向传播算法中，以下关于存储成本的说法正确的有（）。

A、主要存储成本是存储权重矩阵

B、主要存储成本是存储输入到隐藏层的非线性中的值

C、存储成本与小批量中样本的数目有关

D、存储成本与隐藏单元的数量有关

E、存储成本与输出层的计算有关

答案：BCD

题目难度：中等

关联知识点：实例：用于MLP 训练的反向传播

201.在单层 MLP 示例中，以下属于计算图中的操作的有（）。

A、relu

B、matmul

C、cross_entropy

D、sum

E、指数运算

答案：ABCD

题目难度：中等

关联知识点：实例：用于MLP 训练的反向传播

202.在反向传播算法中，以下哪些操作的反向传播规则用于计算梯度（）。

A、矩阵乘法

B、relu

C、cross_entropy

D、sum

E、权重衰减

答案：ABCDE

题目难度：中等

关联知识点：实例：用于MLP 训练的反向传播

203.在MLP的训练过程中，以下哪些与优化算法相关（）。

A、使用梯度下降算法更新参数

B、反向传播算法计算梯度

C、计算代价函数

D、调整权重衰减系数

E、选择激活函数

答案：ABCD

题目难度：中等

关联知识点：实例：用于MLP 训练的反向传播

204.在反向传播算法中，从代价函数 J 后退到权重的路径包括（）。

A、通过交叉熵代价

B、通过均方误差代价

C、通过权重衰减代价

D、通过激活函数代价

E、通过输出层代价

答案：AC

题目难度：中等

关联知识点：实例：用于MLP 训练的反向传播

205.在 MLP 计算中，以下关于计算成本和存储成本的说法正确的有（）。

A、前向传播和反向传播的计算成本主要来源相同

B、存储成本与小批量大小无关

C、计算成本与权重数量有关

D、存储成本与隐藏单元数量有关

E、激活函数计算对计算成本影响较大

答案：ACD

题目难度：中等

关联知识点：实例：用于MLP 训练的反向传播

206在神经网络中，关于参数正则化的说法正确的有（）。

A、通常只对权重做惩罚

B、对偏置做正则惩罚易导致欠拟合

C、寻找合适的多个层的正则化超参数代价大

D、可对网络每一层使用单独惩罚

E、正则化偏置参数对模型无影响

答案：ABCD

题目难度：中等

关联知识点：L2 参数正则化

207.以下关于L2参数正则化的影响说法正确的有（）。

A、使权重更加接近原点

B、会引起学习规则修改，在梯度更新前收缩权重向量

C、沿着 H 特征值较大方向正则化影响较小

D、会使不重要方向对应的分量在训练中衰减

E、对所有方向的参数影响相同

答案：ABCD

题目难度：中等

关联知识点：L2 参数正则化

208.在分析L2正则化对优化二次代价函数影响时，涉及到的概念有（）。

A、Hessian 矩阵

B、特征向量

C、特征值

D、权重向量

E、偏置向量

答案：ABCD

题目难度：中等

关联知识点：L2 参数正则化

209.在线性回归中，L2正则化对其产生的影响包括（）。

A、改变普通方程的解

B、使学习算法能感知输入特征方差

C、收缩与输出目标协方差较小特征的权重

D、对所有特征权重影响相同

E、提高模型对所有数据的拟合能力

答案：ABC

题目难度：中等

关联知识点：L2 参数正则化

210.在研究L2正则化对机器学习的影响时，可从以下哪些方面进行分析（）。

A、对优化抽象通用二次代价函数的影响

B、对线性回归模型的影响

C、对神经网络隐藏层的影响

D、对模型训练速度的影响

E、对模型预测准确性的影响

答案：AB

题目难度：中等

关联知识点：L2 参数正则化

211.以下关于L2正则化与机器学习关联的说法正确的有（）。

A、可通过分析二次近似研究其对线性回归影响

B、对线性回归的影响可通过训练数据术语表述

C、正则化会改变线性回归普通方程解的形式

D、正则化会使线性回归权重与输入特征方差相关

E、正则化对线性回归模型的影响与对其他模型影响完全不同

答案：ABCD

题目难度：中等

关联知识点：L2 参数正则化

212.在L2正则化的推导过程中，用到的数学知识和方法有（）。

A、梯度计算

B、矩阵运算

C、二次近似

D、特征分解

E、随机梯度下降

答案：ABCD

题目难度：中等

关联知识点：L2 参数正则化

213.在分析L1正则化对简单线性回归模型影响时，涉及到的假设或条件有（）。

A、不考虑偏置参数

B、Hessian 矩阵是对角的

C、数据已被预处理去除输入特征之间相关性

D、代价函数是二次函数

E、权重先验是各向同性的拉普拉斯分布

答案：ABCD

题目难度：中等

关联知识点：L1 参数正则化

214.L1正则化产生的稀疏性具有以下特点（）。

A、可用于特征选择机制

B、部分子集权重为零

C、与L2正则化的稀疏性本质不同

D、通过足够大的a实现

E、会使所有参数都变为0

答案：ABCD

题目难度：中等

关联知识点：L1 参数正则化

215.关于L1正则化与 MAP 贝叶斯推断的关系，正确的有（）。

A、L1正则化相当于权重是拉普拉斯先验的 MAP 贝叶斯推断

B、正则化代价函数的惩罚项与对数先验项等价（忽略与w无关项）

C、权重先验是各向同性的拉普拉斯分布

D、可通过 MAP 贝叶斯推断来理解L1正则化

E、L1正则化与 MAP 贝叶斯推断毫无关系

答案：ABCD

题目难度：中等

关联知识点：L1 参数正则化

216. 与L2正则化相比，L1正则化在以下方面存在不同（）。

A、正则化项的定义

B、对梯度的影响

C、产生解的稀疏性

D、对参数的惩罚方式

E、与 MAP 贝叶斯推断的关系

答案：ABCDE

题目难度：中等

关联知识点：L1 参数正则化

217. L1正则化在机器学习中的应用包括（）。

A、特征选择

B、简化机器学习问题

C、与线性模型结合（如 LASSO 模型）

D、提高模型的泛化能力

E、改变模型的训练速度

答案：ABC

题目难度：中等

关联知识点：L1 参数正则化

218. 在分析L1正则化时，用到的数学知识和方法有（）。

A、梯度计算

B、泰勒级数展开

C、矩阵对角化假设

D、特征值分解

E、拉格朗日乘数法（构建广义 Lagrange 函数）

答案：ABCE

题目难度：中等

关联知识点：L1 参数正则化

219.使用显式约束和重投影而不是惩罚强加约束的原因包括（）。

A、惩罚可能导致目标函数非凸，使算法陷入局部极小

B、显式约束能防止权重接近原点，避免出现 “死亡单元”

C、显式约束对优化过程增加了一定的稳定性

D、当知道合适的值时，使用显式约束更方便

E、显式约束计算速度更快

答案：ABCD

题目难度：中等

关联知识点：作为约束的范数惩罚

220. Hinton 等人推荐的约束神经网络层权重矩阵每列范数的策略，以下说法正确的有（）。

A、可以防止某一隐藏单元有非常大的权重

B、若转换为惩罚，与L2权重衰减类似

C、每个隐藏单元的权重有单独的 KKT 乘子

D、每个 KKT 乘子会动态更新以使隐藏单元服从约束

E、在实践中通过重投影的显式约束来实现

答案：ABCDE

题目难度：中等

关联知识点：作为约束的范数惩罚

221.对于应用于线性可分问题的逻辑回归，在没有正则化时可能出现的情况有（）。

A、迭代优化算法持续增加权重大小

B、权重最终会达到导致数值溢出的超大值

C、算法很快收敛到最优解

D、算法陷入局部最优解

E、行为取决于程序员对非数字值的处理

答案：ABE

题目难度：中等

关联知识点：作为约束的范数惩罚

222.正则化在以下哪些方面与基本线性代数问题相关（）。

A、可以使用 Moore - Penrose 求解欠定线性方程

B、正则化系数趋向0时，与某些线性代数问题的极限形式相关

C、正则化可保证线性模型相关矩阵可逆

D、正则化可解决线性模型中的欠约束问题

E、正则化可提高线性代数问题的计算效率

答案：ABCD

题目难度：中等

关联知识点：作为约束的范数惩罚

223.当使用惩罚强加约束时，可能出现的问题有（）。

A、目标函数可能非凸

B、算法可能陷入局部极小

C、可能出现 “死亡单元”

D、权重可能无限制增加

E、优化过程可能不稳定

答案：ABCDE

题目难度：中等

关联知识点：作为约束的范数惩罚

224.以下关于约束区域大小与a关系的说法正确的有（）。

A、较大的a对应较小的约束区域

B、较小的a对应较大的约束区域

C、a与约束区域大小呈反比关系

D、改变a可以精确控制约束区域大小

E、虽然不知道约束区域确切大小，但能通过a大致调整

答案：ABCE

题目难度：中等

关联知识点：作为约束的范数惩罚

225.在解决欠定问题时，正则化起到的作用包括（）。

A、保证迭代方法收敛

B、防止权重无限制增加

C、使目标函数变为凸函数

D、提高算法的稳定性

E、避免出现数值溢出

答案：ABDE

题目难度：中等

关联知识点：作为约束的范数惩罚

226.在机器学习中，以下哪些情况需要正则化（）。

A、线性回归中XTX是奇异的

B、PCA XTX中是奇异的

C、逻辑回归应用于线性可分问题

D、处理欠定问题

E、数据生成分布在一些方向上没有差异

答案：ABCDE

题目难度：中等

关联知识点：正则化和欠约束问题

227.当矩阵XTX奇异时，可能的原因有（）。

A、数据生成分布在一些方向上没有差异

B、数据中存在噪声

C、例子较少（相对输入特征维数）

D、数据缺失

E、数据分布不均匀

答案：AC

题目难度：中等

关联知识点：正则化和欠约束问题

228.对于应用于线性可分问题的逻辑回归，在没有正则化时可能出现的情况有（）。

A、迭代优化算法持续增加权重大小

B、权重最终达到超大值导致数值溢出

C、算法很快收敛到最优解

D、算法陷入局部最优解

E、行为取决于程序员对非数字值的处理

答案：ABE

题目难度：中等

关联知识点：正则化和欠约束问题

229.大多数形式的正则化对应用于欠定问题的迭代方法的影响包括（）。

A、保证收敛

B、加快收敛速度

C、防止权重无限制增加

D、使算法更稳定

E、使算法收敛到全局最优解

答案：ACD

题目难度：中等

关联知识点：正则化和欠约束问题

230.使用正则化解决欠定问题的想法在以下哪些方面有用（）。

A、机器学习中的线性模型

B、基本线性代数问题

C、优化算法

D、数据预处理

E、模型评估

答案：AB

题目难度：中等

关联知识点：正则化和欠约束问题

231.在实践中，当数值实现的梯度下降达到导致数值溢出的超大权重时，可能的处理方式有（）。

A、停止迭代

B、调整学习率

C、采用正则化

D、对权重进行截断或缩放

E、改变数据分布

答案：ABCD

题目难度：中等

关联知识点：正则化和欠约束问题

232.以下关于正则化在欠定问题中的作用说法正确的有（）。

A、保证迭代方法收敛

B、使权重趋向于合理范围

C、提高模型的泛化能力

D、解决矩阵不可逆问题

E、避免算法陷入局部极小

答案：ABCD

题目难度：中等

关联知识点：正则化和欠约束问题

233.从文档内容可知，正则化与以下哪些概念或方法相关（）。

A、权重衰减

B、Lagrange 函数

C、KKT 乘子

D、Moore - Penrose 伪逆

E、梯度下降

答案：ABCDE

题目难度：中等

关联知识点：正则化和欠约束问题

234.以下属于数据集增强方法的有（）。

A、对分类任务中的训练数据进行转换

B、向神经网络输入层注入噪声

C、向隐藏单元施加噪声

D、对权重添加噪声

E、增加训练数据的样本数量

答案：ABC

题目难度：中等

关联知识点：数据集增强

235.在对象识别任务中，以下哪些操作可作为合适的数据集增强方式（）。

A、沿训练图像每个方向平移几个像素

B、旋转图像

C、缩放图像

D、水平翻转图像（当不影响类别判断时）

E、改变图像对比度

答案：ABCDE

题目难度：中等

关联知识点：数据集增强

236.关于数据集增强的作用，以下说法正确的有（）。

A、可以提高模型的泛化能力

B、能够增加训练数据的多样性

C、对某些任务可能需要谨慎选择增强方式

D、可有效减少机器学习技术的泛化误差

E、一定能提高模型的准确率

答案：ABCD

题目难度：中等

关联知识点：数据集增强

237.以下关于向神经网络不同部分添加噪声的说法正确的有（）。

A、向输入层注入噪声可被看作数据集增强

B、向隐藏单元施加噪声是在多个抽象层上的数据集增强

C、向权重添加噪声主要用于循环神经网络的正则化

D、向输入添加方差极小的噪声对某些模型等价于权重正则化

E、向隐藏单元添加噪声比向输入层添加噪声更强大

答案：ABCDE

题目难度：中等

关联知识点：数据集增强

238.在进行机器学习算法比较时，关于数据集增强需要注意的事项有（）。

A、要确保对比算法使用相同的数据集增强方案

B、需判断实验是否适当控制了数据集增强因素

C、普适操作和特定应用领域操作的区分

D、数据集增强可能掩盖算法本身的性能差异

E、应避免使用数据集增强以保证公平比较

答案：ABCD

题目难度：中等

关联知识点：数据集增强

239.对于分类任务，以下哪些特点使得数据集增强相对容易实现（）。

A、分类器输入复杂且高维

B、只需用单个类别标识概括输入

C、分类面临对各种变换保持不变的任务

D、训练数据容易获取

E、分类模型相对简单

答案：BC

题目难度：中等

关联知识点：数据集增强

240.以下哪些情况可能导致在密度估计任务中创建新假数据困难（）。

A、数据分布复杂

B、尚未解决密度估计问题本身

C.、对数据生成过程不了解

D、数据维度过高

E、缺乏有效的数据生成模型

答案：BCE

题目难度：中等

关联知识点：数据集增强

241.数据集增强在语音识别任务中的有效性体现在（）。

A、增加语音数据的多样性

B、提高模型对不同口音的适应性

C、改善模型对噪声环境的鲁棒性

D、增强模型对语音语速变化的处理能力

E、减少语音数据的标注工作量

答案：ABCD

题目难度：中等

关联知识点：数据集增强

242.在神经网络中，噪声鲁棒性与以下哪些方面相关（）。

A、数据集增强

B、权重正则化

C、模型结构

D、训练算法

E、数据分布

答案：AB

题目难度：中等

关联知识点：数据集增强

243.以下关于数据集增强与模型泛化的关系说法正确的有（）。

A、数据集增强是提高模型泛化能力的重要手段

B、合适的数据集增强方式能更好地适应数据变化

C、过度的数据集增强可能导致过拟合

D、不同任务需要选择合适的数据集增强策略

E、数据集增强可完全替代正则化方法

答案：ABCD

题目难度：中等

关联知识点：数据集增强

244.以下关于数据集标签错误的说法正确的有（）。

A、大多数数据集的标签都存在一定错误

B、错误的标签不利于模型学习

C、可以通过增加数据量来解决标签错误问题

D、对标签上的噪声进行建模是一种解决方法

E、标签错误会导致模型过拟合

答案：ABD

题目难度：中等

关联知识点：向输出目标注入噪声

245.以下哪些正则化策略可以防止 softmax 函数学习出现问题（）。

A、权重衰减

B、标签平滑

C、向权重添加噪声

D、数据集增强

E、提前终止

答案：AB

题目难度：中等

关联知识点：向输出目标注入噪声

246.半监督学习框架的特点包括（）。

A、同时使用标记样本和未标记样本

B、仅使用标记样本

C、仅使用未标记样本

D、目的是估计P(y|x)或预测y

E、能提高模型的泛化能力

答案：ADE

题目难度：中等

关联知识点：向输出目标注入噪声

247.以下关于向输出目标注入噪声和向权重注入噪声的说法正确的有（）。

A、都是为了提高模型的泛化能力

B、向输出目标注入噪声可通过标签平滑实现

C、向权重注入噪声可使模型对权重变化不敏感

D、向权重注入噪声在简化线性回归中有特殊情况

E、向输出目标注入噪声会影响模型学习正确分类

答案：BCD

题目难度：中等

关联知识点：向输出目标注入噪声

248.在模型训练中，以下哪些因素可能影响模型的收敛性（）。

A、数据集标签错误

B、使用 softmax 函数和明确目标的最大似然学习

C、向权重添加噪声

D、正则化策略

E、数据的分布

答案：ABCDE

题目难度：中等

关联知识点：向输出目标注入噪声

249.以下关于现代神经网络中标签平滑的说法正确的有（）。

A、是一种常用的正则化技术

B、能够提高模型的稳定性

C、自 20 世纪 80 年代就开始使用

D、可以防止模型过拟合

E、与其他正则化策略可以同时使用

答案：ABCE

题目难度：中等

关联知识点：向输出目标注入噪声

250.在机器学习中，噪声对模型的影响可能体现在（）。
A、影响模型的收敛性
B、改变模型的决策边界
C、影响模型对数据的拟合能力
D、导致模型过拟合或欠拟合
E、提高模型的泛化能力
答案：ABCDE

题目难度：中等

关联知识点：向输出目标注入噪声

251.以下关于卷积神经网络（CNN）的说法正确的有哪些？

A、CNN 通过在图像多个位置共享参数来考虑自然图像的特性

B、参数共享显著降低了 CNN 模型的参数数量

C、CNN 可以显著提高网络的大小而不需要相应地增加训练数据

D、CNN 是将领域知识有效地整合到网络架构的最佳范例之一

E、CNN 只能处理固定大小的图像

答案：ABCD

题目难度：中等

关联知识点：卷积神经网络

252.正则化方法包括以下哪些？

A、参数范数惩罚

B、数据集增强

C、噪声鲁棒性

D、半监督学习

E、多任务学习

答案：ABCDE

题目难度：中等

关联知识点：卷积神经网络

253.以下哪些是深度学习中常用的正则化策略？

A、提前终止

B、参数绑定和共享

C、稀疏表示

D、Bagging 和其他集成方法

E、Dropout

答案：ABCDE

题目难度：中等

关联知识点：卷积神经网络

254.关于参数共享的优点，以下说法正确的有哪些？

A、减少模型参数数量

B、提高模型训练效率

C、增强模型的泛化能力

D、降低计算成本

E、增加模型的复杂度

答案：AD

题目难度：中等

关联知识点：卷积神经网络

255.自然图像具有哪些对转换不变的统计属性？

A、平移不变性

B、旋转不变性

C、缩放不变性

D、颜色不变性

E、亮度不变性

答案：ABC

题目难度：中等

关联知识点：卷积神经网络

256.以下哪些方法可以用于惩罚神经网络中的激活单元？

A、直接惩罚模型参数

B、稀疏化激活单元

C、使用约束强迫某些参数相等

D、采用参数范数惩罚

E、增加激活函数的复杂度

答案：BC

题目难度：中等

关联知识点：卷积神经网络

257.深度学习中的正则化策略旨在解决哪些问题？

A、过拟合

B、欠拟合

C、提高模型的泛化能力

D、减少模型的训练时间

E、增加模型的复杂度

答案：AC

题目难度：中等

关联知识点：卷积神经网络

258.在深度学习中，以下哪些属于优化策略？

A、批标准化

B、坐标下降

C、Polyak 平均

D、监督预训练

E、设计有助于优化的模型

答案：ABCDE

题目难度：中等

关联知识点：卷积神经网络

259.以下关于批量算法和小批量算法的说法，正确的有哪些？

A、批量算法使用整个训练集计算梯度

B、小批量算法使用部分训练样本计算梯度

C、小批量算法的梯度估计比批量算法更精确

D、批量算法的计算效率比小批量算法高

E、小批量算法在一定程度上具有正则化效果

答案：ABE

题目难度：中等

关联知识点：批量算法和小批量算法

260.小批量的大小通常由以下哪些因素决定？

A、梯度估计的精确性

B、硬件架构

C、内存消耗

D、运行时间

E、正则化效果

答案：ABCDE

题目难度：中等

关联知识点：批量算法和小批量算法

261.在深度学习中，以下哪些情况会导致优化困难？

A、目标函数非凸

B、训练集样本数量大

C、模型复杂度高

D、计算资源有限

E、样本相关性高

答案：ACDE

题目难度：中等

关联知识点：批量算法和小批量算法

262.以下关于随机方法的说法，正确的有哪些？

A、每次只使用单个样本的优化算法有时被称为随机方法

B、随机方法包括随机梯度下降

C、随机方法的梯度估计通常相对鲁棒

D、随机方法能使用较小的批量获得成功

E、随机方法不受样本顺序影响

答案：ABCD

题目难度：中等

关联知识点：批量算法和小批量算法

263.在深度学习中，优化算法与一般优化算法不同之处在于？

A、目标函数可分解为训练样本上的求和

B、仅使用部分样本估计代价函数期望值

C、通常不会停止在局部极小点

D、会使用代理损失函数

E、对硬件要求更高

答案：ABCD

题目难度：中等

关联知识点：批量算法和小批量算法

264.使用小批量样本计算梯度估计的好处有哪些？

A、计算速度更快

B、能处理训练集冗余情况

C、可利用多核架构

D、具有正则化效果

E、提高梯度估计精确性（虽回报小于线性但仍有提升）

答案：ABDE

题目难度：中等

关联知识点：批量算法和小批量算法

265.以下关于训练集样本顺序的说法，正确的有哪些？

A、连续样本高度相关时需打乱顺序

B、打乱顺序可减少小批量数据的偏差

C、对于大数据集，通常打乱一次顺序存储后重复使用即可

D、不打乱顺序会极大降低算法性能

E、样本顺序对算法性能没有影响

答案：ABCD

题目难度：中等

关联知识点：批量算法和小批量算法

266.以下关于鞍点的说法，正确的有哪些？

A、鞍点附近的某些点比鞍点有更大的代价

B、鞍点附近的某些点比鞍点有更小的代价

C、鞍点处 Hessian 矩阵同时具有正负特征值

D、鞍点可以视为代价函数某个横截面上的局部极小点和局部极大点

E、鞍点在高维空间中很罕见

答案：ABCD

题目难度：中等

关联知识点：高原、鞍点和其他平坦区域

267.多类随机函数在不同维度空间中的表现有哪些？

A、低维空间中，局部极小值很普遍

B、高维空间中，局部极小值很罕见

C、高维空间中，鞍点很常见

D、低维空间中，鞍点很罕见

E、高维空间中，局部极小值和鞍点数目比率的期望随维度指数级增长

答案：ABCDE

题目难度：中等

关联知识点：高原、鞍点和其他平坦区域

268.在神经网络中，以下哪些情况可能出现？

A、存在包含很多高代价鞍点的损失函数

B、不具非线性的浅层自编码器只有全局极小值和鞍点，没有代价比全局极小值更大的局部极小值

C、具有非线性激活函数的深度模型的学习动态与不具非线性的浅层自编码器有相似之处

D、输出为输入线性函数的网络其损失函数一定是凸函数

E、鞍点附近的梯度通常很小

答案：ABCE

题目难度：中等

关联知识点：高原、鞍点和其他平坦区域

269.对于神经网络训练算法，鞍点激增可能产生的影响有哪些？

A、对于只使用梯度信息的一阶优化算法，情况不清楚

B、梯度下降在许多情况下似乎能逃离鞍点

C、牛顿法若不修改会跳进鞍点

D、二阶方法难以扩展到大型神经网络与鞍点激增有关

E、无鞍牛顿法可能改善鞍点问题

答案：ABCDE

题目难度：中等

关联知识点：高原、鞍点和其他平坦区域

270.以下哪些是所有数值优化算法面临的主要问题？

A、局部极小值

B、鞍点

C、恒值的、宽且平坦的区域

D、悬崖

E、梯度爆炸

答案：C

题目难度：中等

关联知识点：高原、鞍点和其他平坦区域

271.在高维空间中，关于局部极小值、鞍点和极大值的数目，以下说法正确的有哪些？

A、局部极小值远少于鞍点

B、极大值远少于鞍点

C、极大值和局部极小值数目比率的期望随维度指数级增长

D、鞍点和局部极小值数目比率的期望随维度指数级增长

E、局部极小值数目随维度增加而减少

答案：ABDE

题目难度：中等

关联知识点：高原、鞍点和其他平坦区域

272.以下哪些算法可能会受到鞍点的影响？

A、梯度下降

B、随机梯度下降

C、牛顿法

D、无鞍牛顿法

E、梯度截断

答案：BC

题目难度：中等

关联知识点：高原、鞍点和其他平坦区域

273.在神经网络中，不具非线性的网络（如浅层自编码器）有哪些性质？

A、其输出是输入的线性函数

B、有助于分析非线性神经网络模型

C、损失函数是关于参数的非凸函数

D、本质上是多个矩阵组合在一起

E、没有任何实际应用价值

答案：ABCD

题目难度：中等

关联知识点：高原、鞍点和其他平坦区域

274.在神经网络代价函数可视化中，可能观察到哪些现象？

A、初始参数附近的高代价鞍点

B、横穿代价函数中相对平坦的峡谷

C、梯度中的高噪声

D、该区域中 Hessian 矩阵的病态条件

E、需要绕过图中可见的高 “山”

答案：ABCDE

题目难度：中等

关联知识点：高原、鞍点和其他平坦区域

275.以下关于优化问题中的平坦区域的说法，正确的有哪些？

A、可能存在恒值的、宽且平坦的区域

B、在凸问题中，宽而平坦的区间一定包含全局极小值

C、平坦区域的梯度和 Hessian 矩阵都是零

D、平坦区域对优化算法来说是主要问题

E、平坦区域只出现在高维空间

答案：ABCD

题目难度：中等

关联知识点：高原、鞍点和其他平坦区域

276.以下关于卷积运算的说法，正确的有哪些？

A、卷积是对两个实变函数的一种数学运算

B、卷积运算在机器学习中常用于处理多维数组数据

C、卷积运算可交换性在神经网络应用中是重要性质

D、卷积运算的输出有时被称作特征映射

E、卷积运算只能在一维数据上进行

答案：ABD

题目难度：中等

关联知识点：卷积运算

277.在激光传感器追踪宇宙飞船位置的例子中，以下哪些说法正确？

A、传感器输出 x (t) 表示飞船在时刻 t 的位置

B、加权函数 w (a) 中 a 表示测量结果距当前时刻的时间间隔

C、对测量结果进行平均是为了得到飞船位置的低噪声估计

D、卷积运算得到的新函数 s (t) 是飞船位置的平滑估计

E、传感器不会受到噪声干扰

答案：ABCD

题目难度：中等

关联知识点：卷积运算

278.在卷积网络中，关于卷积运算的参数，以下说法正确的有哪些？

A、第一个参数通常叫做输入

B、第二个参数通常叫做核函数

C、核函数通常是由学习算法优化得到的

D、输入和核函数通常是多维数组

E、输入和核函数的维度必须相同

答案：ABCD

题目难度：中等

关联知识点：卷积运算

279.在机器学习应用中，关于卷积运算的实现，以下说法正确的有哪些？

A、通常假设在存储了数值的有限点集以外，函数值为零

B、可以通过对有限个数组元素的求和来实现无限求和

C、一次只能在一个维度上进行卷积运算

D、二维卷积运算可交换性的公式在机器学习库中实现更简单

E、卷积运算对应着非常稀疏的矩阵

答案：ABE

题目难度：中等

关联知识点：卷积运算

280.以下哪些是卷积运算在机器学习中的特点？

A、输入通常是多维数组

B、核是由学习算法优化得到的

C、经常与其他函数一起使用

D、卷积运算可交换性很重要

E、单独使用卷积运算很少见

答案：ABCE

题目难度：中等

关联知识点：卷积运算

281.关于离散卷积与矩阵乘法的关系，以下说法正确的有哪些？

A、离散卷积可以看作矩阵的乘法

B、对应的矩阵是 Toeplitz 矩阵

C、对于二维情况，卷积对应着双重分块循环矩阵

D、卷积对应的矩阵是非常稀疏的

E、矩阵乘法的所有性质都适用于卷积运算

答案：ABCD

题目难度：中等

关联知识点：卷积运算

282.在二维卷积运算中，以下哪些说法正确？

A、可以等价地用两种不同形式表示

B、卷积运算可交换性是因为对核进行了翻转

C、互相关函数和卷积运算几乎一样但不翻转核

D、机器学习库中实现的互相关函数通常被称为卷积

E、基于核翻转的卷积运算所学得的核与未翻转的不同

答案：ABCDE

题目难度：中等

关联知识点：卷积运算

283.在卷积运算中，以下哪些因素会影响其在神经网络中的应用？

A、核的大小

B、输入的维度

C、卷积运算的可交换性

D、与其他函数的组合

E、核函数的优化方式

答案：ABDE

题目难度：中等

关联知识点：卷积运算

284.以下关于卷积运算中核函数的说法，正确的有哪些？

A、核函数是多维数组

B、核函数的值由学习算法确定

C、核函数在卷积运算中起到加权的作用

D、核函数的大小通常小于输入数据的大小

E、核函数的维度必须与输入数据相同

答案：ABCD

题目难度：中等

关联知识点：卷积运算

285.在卷积网络术语中，以下哪些是正确的对应关系？

A、卷积的第一个参数 - 输入

B、卷积的第二个参数 - 核函数

C、卷积运算的输出 - 特征映射

D、加权平均的函数 - 输入

E、传感器的输出 - 核函数

答案：ABC

题目难度：中等

关联知识点：卷积运算

286.以下关于卷积运算中稀疏交互的说法，正确的有哪些？

A、稀疏交互通过使核的大小远小于输入大小来实现

B、稀疏交互可以减少模型存储需求

C、稀疏交互能提高统计效率

D、稀疏交互会增加计算量

E、在深度卷积网络中，深层单元可能与绝大部分输入间接交互

答案：ABCE

题目难度：中等

关联知识点：动机

287.参数共享在卷积神经网络中的优势包括哪些？

A、显著降低模型存储需求

B、不改变前向传播运行时间

C、提高模型的统计效率

D、增加模型的参数数量

E、使网络能高效描述多变量复杂交互

答案：ABC

题目难度：中等

关联知识点：动机

288.在卷积网络中，以下哪些是稀疏连接的特点？

A、核的大小远小于输入大小

B、每个输出单元与少数输入单元产生交互

C、处在网络深层的单元可能与绝大部分输入间接交互

D、减少了模型存储需求和计算量

E、连接不再是稀疏的，所有输出都会受到某个输入单元的影响

答案：ABCD

题目难度：中等

关联知识点：动机

289.卷积运算对平移等变的性质体现在哪些方面？

A、输入图像中对象移动，其在输出中的表示也会移动相同量

B、处理时间序列数据时，输入事件延时，输出表示也会延时

C、对于图像的平移变换，卷积操作的先后顺序不影响结果

D、卷积产生的 2 维映射能表明特征在输入中出现的位置

E、卷积网络在处理图像时能自动检测出平移后的对象

答案：ABC

题目难度：中等

关联知识点：动机

290.以下关于卷积运算在处理不同类型图像数据时的说法，正确的有哪些？

A、处理普通图像时，相同边缘散落在各处，适合进行参数共享

B、处理剪裁居中的人脸图像时，可能需要提取不同位置的不同特征，不一定进行整幅图的参数共享

C、卷积对图像的放缩或旋转变换天然等变，无需其他机制处理

D、卷积运算在处理图像时，只关注边缘检测，不涉及其他特征提取

E、卷积运算可以根据图像数据特点灵活调整参数共享策略

答案：ABE

题目难度：中等

关联知识点：动机

291.在边缘检测的例子中，体现了卷积运算的哪些优势？

A、所需参数数量少

B、计算效率高

C、能有效描述图像特征变换

D、对图像边缘检测更准确

E、适用于各种类型图像的处理

答案：ABC

题目难度：中等

关联知识点：动机

292.卷积运算在机器学习系统中的作用包括哪些？

A、提供处理大小可变输入的方法

B、提高模型存储效率

C、增强模型对某些变换的适应性

D、改善模型的统计效率

E、使模型能够学习更复杂的函数关系

答案：ABCDE

题目难度：中等

关联知识点：动机

293.与传统神经网络相比，卷积网络在处理图像数据时有哪些优势？

A、利用稀疏交互减少参数数量

B、通过参数共享降低存储需求

C、具有对平移等变的特性

D、能够处理大小可变的输入图像

E、计算效率更高

答案：ABCDE

题目难度：中等

关联知识点：动机

294.以下哪些是卷积运算在机器学习中的重要思想？

A、稀疏交互

B、密集连接

C、参数共享

D、等变表示

E、随机采样

答案：ACD

题目难度：中等

关联知识点：动机

295.在深度卷积网络中，关于单元接受域的说法正确的有哪些？

A、浅层单元接受域较小

B、深层单元接受域较大

C、步幅卷积或池化结构会影响接受域大小

D、接受域大小与核的大小无关

E、接受域决定了单元与输入的交互范围

答案：ABCE

题目难度：中等

关联知识点：动机

296.关于池化对平移不变性的影响，以下说法正确的有哪些？

A、当输入作出少量平移时，池化后的大多数输出不变

B、平移不变性在判定图像中是否包含特定特征时有用

C、池化引入了对平移不变性的先验

D、对于某些任务，保存特征的精确位置时平移不变性可能不利

E、池化对所有平移情况都能保证输出完全不变

答案：ABCD

题目难度：中等

关联知识点：池化

297.在处理不同大小输入的图像分类任务时，池化是如何发挥作用的？

A、通过调整池化区域的偏置大小

B、使分类层能接收到固定数量的统计特征

C、确保输入图像大小统一

D、提高网络对不同大小图像的适应性

E、减少计算量

答案：ABDE

题目难度：中等

关联知识点：池化

298.以下关于池化函数的说法，正确的有哪些？

A、不同池化函数在不同情况下有不同适用性

B、最大池化函数对周围最大值比较敏感

C、平均池化函数计算相邻矩形区域内的平均值

D、池化函数的选择会影响网络性能

E、可以根据任务需求自定义池化函数

答案：ABCDE

题目难度：中等

关联知识点：池化

299.在图 9.11 所示的卷积网络结构中，以下哪些说法正确？

A、（左）图网络在卷积层和池化层交替后将卷积特征映射张量展平

B、（中）图网络使用可变大小但数量固定的池化操作

C、（右）图网络没有全连接权重层

D、实际卷积网络结构常比图中更复杂

E、图中结构是卷积网络分类结构的标准形式

答案：ABCD

题目难度：中等

关联知识点：池化

300.池化可能会给以下哪些神经网络结构带来复杂性？

A、玻尔兹曼机

B、自编码器

C、卷积玻尔兹曼机

D、前馈网络

E、循环神经网络

答案：ABC

题目难度：中等

关联知识点：池化

301.在卷积网络中，关于池化层与其他层的关系，以下说法正确的有哪些？

A、池化层位于卷积层之后

B、池化层的输出会影响下一层的输入规模

C、池化层的参数与卷积层参数相互独立

D、池化层可以与全连接层配合使用

E、池化层的作用不受前一层类型影响

答案：ABD

题目难度：中等

关联知识点：池化

302.学习不变性的示例中（如图 9.9 所示），以下哪些说法正确？

A、使用分离参数学得多个特征

B、池化单元可学得对输入某些变换的不变性

C、展示了对旋转变换的不变性学习

D、不同输入可能导致不同探测单元激活但对池化单元影响相同

E、这种方法只适用于手写数字识别任务

答案：ABCD

题目难度：中等

关联知识点：池化

303.以下关于先验概率分布的说法，正确的有哪些？

A、刻画了在看到数据之前对模型的信念

B、强先验概率密度集中程度高

C、弱先验具有较高的熵值

D、无限强先验禁止对某些参数赋值

E、先验的强弱与数据无关

答案：ABCD

题目难度：中等

关联知识点：卷积与池化作为一种无限强的先验

304.卷积网络中权重的无限强先验包括哪些内容？

A、隐藏单元权重在空间上可移动

B、隐藏单元相邻权重相同

C、除小空间连续接受域内权重外其余为零

D、权重服从特定分布

E、权重完全随机

答案：ABC

题目难度：中等

关联知识点：卷积与池化作为一种无限强的先验

305.使用池化作为无限强先验的特点有哪些？

A、使单元具有对少量平移的不变性

B、可能导致欠拟合

C、能提高网络的统计效率

D、有助于处理不同大小的输入

E、增加了模型的复杂度

答案：ABCD

题目难度：中等

关联知识点：卷积与池化作为一种无限强的先验

306.在哪些情况下，卷积和池化可能导致欠拟合？

A、任务依赖保存精确空间信息且所有特征都使用池化

B、任务涉及对相隔较远信息的合并时卷积先验不正确

C、数据量过少

D、模型结构过于简单

E、先验假设不合理且不正确

答案：ABE

题目难度：中等

关联知识点：卷积与池化作为一种无限强的先验

307.以下关于卷积网络与全连接网络类比的说法，正确的有哪些？

A、卷积网络可类比为具有无限强先验的全连接网络

B、这种类比有助于理解卷积网络工作原理

C、实际实现中按此类比会造成计算浪费

D、全连接网络的权重分布与卷积网络相同

E、类比中卷积网络的先验只涉及权重相等

答案：ABC

题目难度：中等

关联知识点：卷积与池化作为一种无限强的先验

308.卷积和池化在图像处理中的优势有哪些？

A、减少模型参数数量

B、提高计算效率

C、增强平移不变性

D、有助于特征提取

E、适应不同大小图像输入

答案：ABCDE

题目难度：中等

关联知识点：卷积与池化作为一种无限强的先验

309.为避免卷积和池化导致的欠拟合，可采取的措施有哪些？

A、在部分通道上不使用池化

B、调整卷积核大小

C、增加数据量

D、改进模型结构

E、重新设计先验假设

答案：ABDE

题目难度：中等

关联知识点：卷积与池化作为一种无限强的先验

310.在比较卷积模型的统计学习表现时，需要注意什么？

A、只能与其他卷积模型比较

B、不能与不使用卷积的模型比较

C、要考虑数据集的特点

D、需关注模型的结构差异

E、比较基准应具有一致性

答案：ABCDE

题目难度：中等

关联知识点：卷积与池化作为一种无限强的先验

311.以下哪些因素会影响卷积和池化在任务中的效果？

A、任务的类型

B、数据的特性

C、先验假设的合理性

D、模型的架构

E、计算资源的限制

答案：ABCDE

题目难度：中等

关联知识点：卷积与池化作为一种无限强的先验

312.关于卷积网络中先验的作用，以下说法正确的有哪些？

A、引导模型学习合适的函数

B、影响模型的参数分布

C、决定模型的结构

D、与数据的拟合程度相关

E、可以通过调整先验来优化模型

答案：ABDE

题目难度：中等

关联知识点：卷积与池化作为一种无限强的先验

313.神经网络中卷积的实际应用函数与标准离散卷积运算的差异包括哪些？

A、通常是多个并行卷积组成

B、输入输出形式不同

C、不一定保证线性运算可交换

D、可能涉及下采样

E、零填充情况不同

答案：ABCDE

题目难度：中等

关联知识点：基本卷积函数的变体

314.在处理图像时，卷积网络的输入输出张量的维度索引分别表示什么？

A、一个索引用于标明不同通道

B、两个索引标明在每个通道上的空间坐标

C、一个索引用于标明批处理中不同实例

D、一个索引用于标明特征类型

E、一个索引用于标明像素值大小

答案：AB

题目难度：中等

关联知识点：基本卷积函数的变体

315.以下关于下采样卷积函数的说法，正确的有哪些？

A、可以降低计算开销

B、步幅决定采样间隔

C、可能影响特征提取效果

D、可以对每个移动方向定义不同步幅

E、等同于单位步幅的卷积随后降采样（但计算上更高效）

答案：ABCD

题目难度：中等

关联知识点：基本卷积函数的变体

316.零填充在卷积网络中的作用包括哪些？

A、控制输出大小

B、增加网络表示能力

C、影响边界像素表示

D、决定卷积层的层数

E、改变核的大小

答案：ABCD

题目难度：中等

关联知识点：基本卷积函数的变体

317.局部连接层的特点有哪些？

A、每个连接都有自己的权重

B、适用于特征是小块空间函数且分布不均匀的情况

C、连接受限，只在局部范围内连接

D、可以减少参数数量，降低存储消耗

E、没有参数共享

答案：ABCDE

题目难度：中等

关联知识点：基本卷积函数的变体

318.平铺卷积的特点包括哪些？

A、对卷积层和局部连接层进行折衷

B、学习一组核并循环利用

C、存储需求增长与核的集合大小有关

D、相邻位置上的过滤器不同

E、对于学得的变换具有不变性（在某些情况下）

答案：ABCDE

题目难度：中等

关联知识点：基本卷积函数的变体

319.在卷积网络中，以下哪些运算对于训练是必要的？

A、卷积运算

B、从输出到权重的反向传播

C、从输出到输入的反向传播

D、池化运算

E、偏置项的调整

答案：ABC

题目难度：中等

关联知识点：基本卷积函数的变体

320.关于卷积层偏置项的设置，以下说法正确的有哪些？

A、对于局部连接层，通常每个单元有特有的偏置

B、对于平铺卷积，用与核一样的平铺模式共享参数

C、对于卷积层，一般在输出每个通道上设置共享偏置

D、当输入固定大小时，可在输出映射每个位置学习单独偏置

E、分离偏置会提高模型统计效率，但可能需校正图像不同位置统计差异

答案：ABCD

题目难度：中等

关联知识点：基本卷积函数的变体

321.以下哪些层的探测单元由不同过滤器驱动，与最大池化有有趣关联？

A、卷积层

B、局部连接层

C、平铺卷积层

D、全连接层

E、池化层

答案：BC

题目难度：中等

关联知识点：基本卷积函数的变体

322.在卷积网络中，步幅卷积的相关参数有哪些？

A、步幅大小

B、核的大小

C、零填充策略

D、输入张量的大小

E、输出映射的大小

答案：ABCDE

题目难度：中等

关联知识点：基本卷积函数的变体

323.计算图展开的好处包括哪些？

A、得到不涉及循环的表达式

B、可以使用传统的有向无环计算图呈现

C、便于理解循环结构的计算过程

D、增加计算图的复杂度

E、有助于优化模型

答案：ABCE

题目难度：中等

关联知识点：展开计算图

324.在循环神经网络中，隐藏单元

的作用包括哪些？

A、代表网络的状态

B、用于存储过去序列的信息

C、作为输入参与到下一个时间步的计算

D、可以通过输出层进行预测

E、其值的更新规则与

(t)和

有关

答案：ABCDE

题目难度：中等

关联知识点：展开计算图

325.循环神经网络在训练时，关于

(t)的说法正确的有哪些？

A、是过去序列与任务相关方面的有损摘要

B、映射任意长度序列到固定长度向量

C、根据训练准则，可能选择性保留过去序列某些方面

D、在统计语言建模中，需存储时刻前输入序列中的所有信息

E、在自编码器框架中，要求足够丰富以恢复输入序列

答案：ABCE

题目难度：中等

关联知识点：展开计算图

326.展开过程引入的优点有哪些？

A、学成的模型输入大小不受序列长度影响

B、减少模型的训练时间

C、可以在每个时间步使用相同参数的相同转移函数

D、降低模型的复杂度

E、允许泛化到未见过的序列长度

答案：ACE

题目难度：中等

关联知识点：展开计算图

327.在循环神经网络中，以下哪些因素与模型的训练和泛化能力有关？

A、序列长度

B、隐藏单元数量

C、参数共享机制

D、输入数据的分布

E、训练算法的选择

答案：ABCDE

题目难度：中等

关联知识点：展开计算图

328.以下关于循环神经网络计算图的说法，正确的有哪些？

A、展开计算图有助于理解循环结构对模型的影响

B、计算图中的节点可以表示状态、输入或输出

C、循环结构使得模型能够处理序列数据中的长期依赖关系

D、不同的绘制方式有助于从不同角度分析模型

E、计算图的复杂度与序列长度无关

答案：ABCD

题目难度：中等

关联知识点：展开计算图

329.在计算循环神经网络梯度时，以下哪些说法正确？

A、可以应用推广反向传播算法

B、计算图节点包括参数和不同时间步的变量

C、从紧接着最终损失的节点开始递归计算梯度

D、结合通用基于梯度技术可训练 RNN

E、计算成本与时间步数量无关

答案：ABCD

题目难度：中等

关联知识点：导师驱动过程和输出循环网络

330.当网络在开环模式下使用时，以下哪些方法可以减轻导师驱动过程训练的问题？

A、同时使用导师驱动过程和自由运行的输入进行训练

B、预测几个步骤的正确目标值

C、随意选择生成值或真实的数据值作为输入

D、增加训练数据量

E、改变网络结构

答案：ABC

题目难度：中等

关联知识点：导师驱动过程和输出循环网络

331.以下关于条件最大似然准则的说法，正确的有哪些？

A、用于计算特定条件下的概率

B、涉及不同时间步输出的条件概率

C、是导师驱动过程的理论基础之一

D、可用于优化模型参数

E、与循环神经网络的结构无关

答案：ABC

题目难度：中等

关联知识点：导师驱动过程和输出循环网络

332.在循环神经网络中，关于隐藏单元循环连接的影响，以下说法正确的有哪些？

A、存在隐藏到隐藏循环连接的网络功能更强大

B、隐藏单元循环会导致训练代价大

C、没有隐藏到隐藏循环时输出单元需捕捉更多信息

D、隐藏单元循环影响训练的并行化

E、隐藏单元循环与模型的泛化能力无关

答案：ABCD

题目难度：中等

关联知识点：导师驱动过程和输出循环网络

333.以下哪些因素会影响循环神经网络的训练和性能？

A、是否存在隐藏到隐藏循环连接

B、导师驱动过程的使用方式

C、计算梯度的算法

D、输入数据的特点

E、模型的初始化参数

答案：ABCDE

题目难度：中等

关联知识点：导师驱动过程和输出循环网络

334.在循环神经网络训练中，BPTT 算法的必要性体现在哪些方面？

A、当隐藏单元成为较早时间步的函数时

B、计算循环神经网络的梯度时

C、处理长序列数据时

D、优化模型参数时

E、提高模型准确率时

答案：ABD

题目难度：中等

关联知识点：导师驱动过程和输出循环网络

335.以下关于循环神经网络输出循环的说法，正确的有哪些？

A、输出单元与下一时间步隐藏单元的循环连接影响模型性能

B、导师驱动过程改变了输出循环的训练方式

C、输出循环网络的训练和测试输入模式可能不同

D、可以通过多种方式优化输出循环网络的训练

E、输出循环网络的结构比普通循环神经网络简单

答案：ABCD

题目难度：中等

关联知识点：导师驱动过程和输出循环网络

336.在循环神经网络训练中，课程学习策略的作用包括哪些？

A、逐步使用更多生成值作为输入

B、减小训练和测试时输入的差别

C、提高模型对不同输入的适应性

D、优化模型的训练过程

E、增加模型的复杂度

答案：ABCD

题目难度：中等

关联知识点：导师驱动过程和输出循环网络

337.为了计算循环神经网络的梯度，采取了以下哪些措施？

A、应用推广反向传播算法于展开的计算图

B、从紧接着最终损失的节点开始递归计算梯度

C、定义虚拟变量W(t)来处理参数共享问题

D、计算图内部节点梯度后计算参数节点梯度

E、假设损失函数为负对数似然

答案：ABCDE

题目难度：中等

关联知识点：计算循环神经网络的梯度

338.以下哪些与计算循环神经网络梯度时的计算顺序有关？

A、从序列的末尾开始，反向进行计算

B、先计算输出节点的梯度

C、再计算隐藏单元节点的梯度

D、最后计算参数节点的梯度

E、按照时间步从前往后计算

答案：ABCD

题目难度：中等

关联知识点：计算循环神经网络的梯度

339.以下关于计算循环神经网络梯度的说法，正确的有哪些？

A、计算过程相对复杂，需要考虑时间步和节点之间的关系

B、推广反向传播算法是计算梯度的关键算法

C、计算梯度是为了结合基于梯度的技术训练 RNN

D、虚拟变量的定义有助于准确计算参数节点的梯度

E、梯度的计算结果会影响模型的参数更新

答案：ABCDE

题目难度：中等

关联知识点：计算循环神经网络的梯度

340.在循环网络中，以下哪些可以作为损失函数？

A、训练目标y(t)和输出o(t)之间的交叉熵

B、均方误差（与单位高斯分布的输出相关联的交叉熵损失）

C、绝对误差

D、自定义的与任务相关的函数

E、对数似然函数

答案：ABDE

题目难度：中等

关联知识点：作为有向图模型的循环网络

341.在循环网络中，确定序列长度的方法有哪些？

A、在输出是符号序列时，添加序列末端特殊符号，产生该符号时采样停止

B、引入额外的 Bernoulli 输出，通过交叉熵训练其决定继续或停止生成

C、添加额外输出预测整数T本身，循环更新中增加额外输入使其知道是否靠近序列末尾

D、根据输入数据的特征自动确定序列长度

E、随机确定序列长度

答案：ABC

题目难度：中等

关联知识点：作为有向图模型的循环网络

342.在将 RNN 视为图模型时，以下关于隐藏单元h(t)的说法，正确的有哪些？

A、视为随机变量时，能对观测的联合分布提供更有效的参数化

B、可作为过去和未来之间的中间量，将它们解耦

C、其存在与否不影响模型对序列的建模能力

D、有助于在时间步使用相同的条件概率分布有效地参数化模型

E、能使模型更好地处理序列中的长期依赖关系

答案：ABDE

题目难度：中等

关联知识点：作为有向图模型的循环网络

343.在循环网络中，使用参数共享可能带来的影响有哪些？

A、减少参数数目，提高计算效率

B、优化参数可能变得困难

C、假设条件概率分布平稳，可能不适应某些时间依赖关系

D、可以使模型更好地处理不同长度的序列

E、限制了模型对复杂序列关系的表达能力

答案：ABC

题目难度：中等

关联知识点：作为有向图模型的循环网络

344.在循环网络中，从模型采样时可能面临的挑战有哪些？

A、难以预测序列中缺少的值

B、确定序列长度的机制可能增加复杂性

C、采样过程可能不稳定，导致结果不准确

D、需要考虑隐藏单元的状态对采样的影响

E、采样效率可能较低，尤其是对于长序列

答案：ABCDE

题目难度：中等

关联知识点：作为有向图模型的循环网络

345.在将 RNN 视为图模型时，以下哪些因素会影响模型的性能？

A、损失函数的选择

B、图模型的结构（包括是否包含隐藏单元及边的设置）

C、确定序列长度的方法

D、参数共享的方式及假设

E、采样的方法及过程

答案：ABCDE

题目难度：中等

关联知识点：作为有向图模型的循环网络

346.在循环网络中，以下关于时间步变量的条件概率分布的说法，正确的有哪些？

A、通常假设是平稳的，以实现参数共享

B、若不平稳，可能需要更复杂的建模方式

C、其性质会影响模型对序列的处理能力

D、可以通过调整模型结构来适应不同的条件概率分布特性

E、与输入数据的分布无关

答案：ABCD

题目难度：中等

关联知识点：作为有向图模型的循环网络

347.在基于上下文的 RNN 序列建模中，将单个向量x作为输入提供给 RNN 的方式有哪些？

A、在每个时刻作为一个额外输入

B、作为初始状态h(0)

C、只在最后一个时间步作为输入

D、结合在每个时刻作为额外输入和作为初始状态h(0)两种方式

E、随机在某些时刻作为输入

答案：ABD

题目难度：中等

关联知识点：基于上下文的RNN 序列建模

348.在基于上下文的 RNN 序列建模中，以下哪些因素会影响 RNN 对序列分布的建模能力？

A、输入x的形式（单个向量或向量序列）

B、输入x与隐藏单元的连接方式（如通过权重矩阵R）

C、是否在时刻t的输出到时刻t+1的隐藏单元添加连接

D、模型的参数数量

E、训练数据的分布

答案：ABCDE

题目难度：中等

关联知识点：基于上下文的RNN 序列建模

349.在基于上下文的 RNN 序列建模中，以下哪些方法可以用于优化模型性能？

A、调整模型参数（如权重矩阵）

B、增加训练数据量

C、改进训练算法（如优化梯度计算和更新方式）

D、对输入数据进行预处理（如归一化）

E、采用正则化技术（如 L1、L2 正则化）

答案：ABCDE

题目难度：中等

关联知识点：基于上下文的RNN 序列建模

350.在基于上下文的 RNN 序列建模中，以下哪些是模型可能面临的挑战？

A、处理长序列时的梯度消失或爆炸问题

B、对复杂上下文关系的建模能力有限

C、模型训练的计算成本较高

D、难以处理输入序列和输出序列长度不一致的情况（未采用特殊方法时）

E、对噪声数据敏感，鲁棒性较差

答案：ABCDE

题目难度：中等

关联知识点：基于上下文的RNN 序列建模

351.门控 RNN 包括以下哪些类型（）。

A、基于长短期记忆的网络

B、基于渗漏单元的网络

C、基于门控循环单元的网络

D、基于普通循环单元的网络

E、基于卷积神经网络的网络

答案：AC

题目难度：中等

关联知识点：LSTM

352.LSTM 在以下哪些应用中取得了重大成功（）。

A、无约束手写识别

B、图像分类

C、语音识别

D、目标检测

E、机器翻译

答案：ACE

题目难度：中等

关联知识点：LSTM

353.LSTM 细胞的输出计算涉及以下哪些元素（）。

A、遗忘门

B、输入门

C、输出门

D、细胞状态

E、tanh 函数

答案：CDE

题目难度：中等

关联知识点：LSTM

354.LSTM 细胞中，以下哪些门具有 sigmoid 非线性（）。

A、遗忘门

B、输入门

C、输出门

D、外部输入门

E、内部循环门

答案：ABCD

题目难度：中等

关联知识点：LSTM

355.以下关于 LSTM 的描述，正确的有（）。

A、LSTM 不是简单地向输入和循环单元的仿射变换之后施加一个逐元素的非线性

B、LSTM 细胞的状态单元具有线性自环

C、LSTM 的遗忘门权重由另一个隐藏单元控制

D、LSTM 的变体和替代已被研究和使用

E、LSTM 网络在所有序列处理任务上都优于其他架构

答案：ABCD

题目难度：中等

关联知识点：LSTM

356.在 LSTM 中，细胞状态的更新与以下哪些因素有关（）。

A、遗忘门

B、外部输入门

C、输出门

D、当前输入向量

E、当前隐藏层向量

答案：ABDE

题目难度：中等

关联知识点：LSTM

357.LSTM 循环网络的优点包括（）。

A、易于学习长期依赖

B、能够动态控制时间尺度

C、可根据输入序列改变累积时间尺度

D、计算成本低

E、模型参数少

答案：ABC

题目难度：中等

关联知识点：LSTM

358.与普通循环网络相比，LSTM 循环网络（）。

A、具有更多的参数

B、具有控制信息流动的门控单元系统

C、细胞内部状态更新方式不同

D、输出计算方式不同

E、只能处理短序列数据

答案：ABCD

题目难度：中等

关联知识点：LSTM

359.以下关于 LSTM 和门控 RNN 的说法，正确的有（）。

A、门控 RNN 的想法基于生成通过时间的路径，导数既不消失也不爆炸

B、LSTM 是门控 RNN 的一种

C、门控 RNN 的连接权重在每个时间步可能改变

D、LSTM 通过遗忘门控制自环权重，累积时间尺度可动态改变

E、门控 RNN 在所有应用中都比普通循环网络表现好

答案：ABCD

题目难度：中等

关联知识点：LSTM

360.手动调整超参数需要了解以下哪些关系（）。

A、超参数与训练误差的关系

B、超参数与泛化误差的关系

C、超参数与计算资源的关系

D、训练误差与泛化误差的关系

E、计算资源与泛化误差的关系

答案：ABC

题目难度：中等

关联知识点：手动调整超参数

361.模型的有效容量受以下哪些因素限制（）。

A、模型的表示容量

B、学习算法最小化训练模型代价函数的能力

C、代价函数和训练过程正则化模型的程度

D、训练数据的数量

E、测试数据的数量

答案：ABC

题目难度：中等

关联知识点：手动调整超参数

362.以下哪些超参数数值变化会影响模型容量（）。

A、隐藏单元数量

B、学习率

C、卷积核宽度

D、隐式零填充

E、权重衰减系数

答案：ABCDE

题目难度：中等

关联知识点：手动调整超参数

363.增加隐藏单元数量会带来以下哪些影响（）。

A、增加模型的表示能力

B、增加模型计算代价

C、可能导致过拟合

D、一定能提高模型性能

E、减少训练时间

答案：ABC

题目难度：中等

关联知识点：手动调整超参数

364.关于学习率，以下说法正确的有（）。

A、学习率过大可能会增加训练误差

B、学习率过小会使训练变慢

C、学习率对模型有效容量有重要影响

D、学习率是唯一需要调整的超参数

E、学习率的最优值是固定不变的

答案：ABC

题目难度：中等

关联知识点：手动调整超参数

365.如果测试集错误率大于目标错误率，可以采取以下哪些方法（）。

A、改变正则化超参数

B、增加模型容量

C、调整学习率

D、收集更多训练数据

E、减少训练数据

答案：ABC

题目难度：中等

关联知识点：手动调整超参数

366.以下超参数中，能减少模型容量的有（）。

A、增加权重衰减系数

B、增加 Dropout 比率

C、减小隐藏单元数量

D、减小卷积核宽度

E、减小隐式零填充

答案：ABCDE

题目难度：中等

关联知识点：手动调整超参数

367.手动调整超参数时，以下哪些做法是正确的（）。

A、同时监测训练误差和测试误差

B、只关注训练误差，忽略测试误差

C、根据误差情况调整模型容量

D、随意选择超参数，不考虑其影响

E、不断提高模型容量和训练集大小直到解决问题（在资源允许时）

答案：ACE

题目难度：中等

关联知识点：手动调整超参数

368.以下关于超参数的说法，正确的有（）。

A、有些超参数是离散的，只能探索曲线上的一些点

B、有些超参数是二值的，只能探索曲线上的两点

C、有些超参数有最小值或最大值，限制了探索曲线的部分

D、超参数的调整对模型性能没有影响

E、所有超参数都对应完整的 U 形曲线

答案：ABC

题目难度：中等

关联知识点：手动调整超参数

369.以下哪些算法在超参数数量较少时能表现出不错性能（）。

A、逻辑回归

B、支持向量机

C、神经网络

D、决策树

E、朴素贝叶斯

答案：ABC

题目难度：中等

关联知识点：自动超参数优化算法

370.自动超参数优化算法面临的挑战包括（）。

A、自身超参数的选择

B、计算代价高

C、可能陷入局部最优

D、对不同类型超参数处理困难

E、无法处理约束条件

答案：ABC

题目难度：中等

关联知识点：自动超参数优化算法

371.网格搜索的步骤包括（）。

A、为每个超参数选择有限值集

B、计算超参数笛卡尔乘积得到超参数组合

C、使用每组超参数训练模型

D、挑选验证集误差最小的超参数

E、调整训练数据分布

答案：ABCD

题目难度：中等

关联知识点：自动超参数优化算法

372.在超参数优化中，可能的约束条件有（）。

A、训练时间预算

B、内存预算

C、识别时间预算

D、数据规模预算

E、模型复杂度预算

答案：ABC

题目难度：中等

关联知识点：自动超参数优化算法

373.以下哪些方法可用于改进网格搜索效果（）。

A、重复进行网格搜索

B、扩大超参数取值范围

C、细化超参数取值范围

D、增加超参数数量

E、随机选择超参数初始值

答案：ABC

题目难度：中等

关联知识点：自动超参数优化算法

374.自动超参数优化算法的优点有（）。

A、减少人工调整超参数的工作量

B、能在复杂超参数空间中搜索

C、对不同类型超参数有较好适应性

D、总能找到全局最优超参数

E、不受超参数数量影响

答案：ABC

题目难度：中等

关联知识点：自动超参数优化算法

375.以下关于超参数优化算法自身超参数的说法，正确的有（）。

A、包括学习算法超参数探索范围

B、对优化算法性能有重要影响

C、通常较难选择

D、相同次级超参数在不同问题上性能稳定

E、不需要使用者关注

答案：AB

题目难度：中等

关联知识点：自动超参数优化算法

376.逻辑回归和支持向量机流行的部分原因是（）。

A、模型复杂度低

B、超参数数量少

C、能自动调整超参数

D、对数据分布要求低

E、计算成本低

答案：AB

题目难度：中等

关联知识点：自动超参数优化算法

377.在选择网格搜索超参数取值范围时，以下做法正确的有（）。

A、基于先前经验保守挑选

B、只考虑最大值，最小值随意

C、优先选择对数尺度下的值

D、范围越大越好

E、根据问题特点选择合适范围

答案：ACE

题目难度：中等

关联知识点：自动超参数优化算法

378.自动超参数优化算法在以下哪些情况下更具优势（）。

A、超参数数量多

B、缺乏经验初始值

C、对优化精度要求高

D、计算资源充足

E、数据分布复杂

答案：ABCDE

题目难度：中等

关联知识点：自动超参数优化算法

379.网格搜索的步骤包括（）。

A、为每个超参数选择有限值集

B、计算超参数笛卡尔乘积得到超参数组合

C、使用每组超参数训练模型

D、挑选验证集误差最小的超参数

E、调整训练数据分布

答案：ABCD

题目难度：中等

关联知识点：网格搜索

380.在超参数是数值（有序）的情况下，选择网格搜索取值范围时应（）。

A、基于先前经验保守挑选

B、只考虑最大值，最小值随意

C、优先选择对数尺度下的值

D、范围越大越好

E、根据问题特点选择合适范围

答案：ACE

题目难度：中等

关联知识点：网格搜索

381.以下哪些情况可能适合使用网格搜索（）。

A、超参数数量较少

B、计算资源充足

C、对搜索精度要求高

D、超参数之间相关性强

E、有明确的超参数取值范围

答案：ABE

题目难度：中等

关联知识点：网格搜索

382.网格搜索的优点包括（）。

A、能全面搜索超参数空间

B、对于小规模超参数问题有效

C、容易实现

D、不需要考虑超参数分布

E、可以并行计算

答案：ABCE

题目难度：中等

关联知识点：网格搜索

383.如果重复进行网格搜索，以下做法正确的有（）。

A、若首次最佳值在范围边界，扩大搜索范围

B、若首次最佳值接近边界，细化搜索范围

C、每次搜索都使用相同的超参数取值集合

D、不断调整搜索策略，直到找到最优解

E、结合随机搜索一起使用，提高搜索效果

答案：AB

题目难度：中等

关联知识点：网格搜索

384.网格搜索中，以下关于超参数取值集合的说法正确的有（）。

A、取值集合的大小会影响搜索结果

B、取值集合越大，计算成本越高

C、取值集合应包含所有可能的取值

D、可以根据问题的复杂度选择合适的取值集合大小

E、取值集合的选择与超参数的类型无关

答案：ABD

题目难度：中等

关联知识点：网格搜索

385.以下哪些算法在超参数数量较少时可能适合与网格搜索搭配使用（）。

A、逻辑回归

B、支持向量机

C、神经网络

D、决策树

E、朴素贝叶斯

答案：ABCDE

题目难度：中等

关联知识点：网格搜索

386.在进行网格搜索时，为了提高搜索效率，可以（）。

A、利用先验知识缩小超参数取值范围

B、优先搜索重要超参数

C、减少不必要的超参数组合

D、增加搜索迭代次数

E、结合其他优化算法进行搜索

答案：ABCE

题目难度：中等

关联知识点：网格搜索

387.网格搜索与随机搜索相比（）。

A、网格搜索计算代价更高

B、随机搜索更容易陷入局部最优

C、网格搜索能更全面地探索超参数空间

D、随机搜索编程更简单

E、网格搜索在某些情况下可能找到更优解

答案：ACDE

题目难度：中等

关联知识点：网格搜索

388.以下关于网格搜索在深度学习中的应用，正确的有（）。

A、可以用于调整神经网络的超参数

B、对于大规模深度学习模型可能不适用

C、是超参数优化的常用方法之一

D、可以结合自动超参数优化算法使用

E、其结果可能受到数据分布的影响

答案：ABCDE

题目难度：中等

关联知识点：网格搜索

389.以下关于对比度归一化的说法，正确的有（）。

A、全局对比度归一化能确保图像整体对比度一致

B、局部对比度归一化能突出图像边缘和角等特征

C、sphering（白化）与全局对比度归一化作用完全相同

D、对比度归一化可作为网络隐藏层的非线性作用

E、对比度归一化可用于输入的预处理操作

答案：ABDE

题目难度：中等

关联知识点：对比度归一化

390.以下关于全局对比度归一化（GCN）和局部对比度归一化（LCN）的比较，正确的有（）。

A、GCN 使所有图片尺度差不多，减轻学习算法处理多尺度负担

B、LCN 更多改变图像，丢弃相同强度区域，使模型关注边缘

C、GCN 在处理小图像区域时效果优于 LCN

D、LCN 在处理大图像时计算成本低于 GCN

E、GCN 和 LCN 不能同时使用

答案：AB

题目难度：中等

关联知识点：对比度归一化

391.在计算局部对比度归一化时，对于彩色图像，以下哪些策略可行（）。

A、单独处理不同颜色通道计算平均值和标准差

B、组合不同通道信息使每个像素归一化

C、只对亮度通道进行归一化

D、先将彩色图像转换为灰度图像再计算

E、根据颜色通道的重要性加权计算平均值和标准差

答案：ABE

题目难度：中等

关联知识点：对比度归一化

392.全局对比度归一化在处理某些数据集时，可能存在的问题有（）。

A、对于低对比度图像可能放大噪声

B、不能突出图像特定区域（如暗区内边缘）的特征

C、计算复杂度高，难以应用于大规模数据集

D、对图像颜色信息处理不当

E、无法处理图像的旋转和翻转等变换

答案：AB

题目难度：中等

关联知识点：对比度归一化

393.以下哪些情况适合使用对比度归一化（）。

A、图像数据集对比度差异较大

B、希望模型更好地学习图像边缘特征

C、减少模型需要考虑的图像变化量

D、提高模型对图像旋转和翻转的鲁棒性

E、处理从大图像中剪切的小图像区域

答案：ABCE

题目难度：中等

关联知识点：对比度归一化

394.局部对比度归一化的优点包括（）。

A、能够突出图像边缘和角等细节特征

B、可通过可分离卷积高效计算

C、可以作为网络隐藏层的非线性作用

D、适用于各种类型的图像数据集

E、能减少模型处理多尺度问题的负担

答案：ABC

题目难度：中等

关联知识点：对比度归一化

395.以下哪些操作属于数据集增强的方法（）。

A、图像的随机旋转

B、图像的随机翻转

C、图像颜色的随机扰动

D、图像的随机裁剪

E、图像的对比度归一化

答案：ABCD

题目难度：中等

关联知识点：计算机视觉-数据集增强

396.数据集增强对分类器的影响包括（）。

A、提高泛化能力

B、减少过拟合风险

C、增加训练时间

D、提高模型复杂度

E、改善模型对不同变换的鲁棒性

答案：ABE

题目难度：中等

关联知识点：计算机视觉-数据集增强

397.在进行数据集增强时，需要注意（）。

A、不能改变图像类别

B、变换方式应根据任务选择

C、增强后的数据集应保持多样性

D、避免过度增强导致数据失真

E、可以随意选择增强方法

答案：ABCD

题目难度：中等

关联知识点：计算机视觉-数据集增强

398.以下哪些任务可能受益于数据集增强（）。

A、目标检测

B、人脸识别

C、图像分类

D、图像生成

E、图像去噪

答案：ABC

题目难度：中等

关联知识点：计算机视觉-数据集增强

399.在计算机视觉应用中，数据集增强的好处有（）。

A、充分利用有限的训练数据

B、提高模型对不同场景的适应性

C、减少对大量标注数据的依赖

D、提高模型的准确率

E、加快模型训练速度

答案：ABCD

题目难度：中等

关联知识点：计算机视觉-数据集增强

400.以下关于数据集增强和对比度归一化的关系，正确的有（）。

A、都可以作为预处理操作

B、目的都是提高模型性能

C、数据集增强侧重于增加数据多样性，对比度归一化侧重于调整图像对比度

D、两者可以同时使用

E、对比度归一化是数据集增强的一种特殊形式

答案：ABCD

题目难度：中等

关联知识点：计算机视觉-数据集增强

401.以下哪些数据集增强方法适用于图像颜色处理（）。

A、颜色抖动

B、灰度转换

C、随机改变颜色通道顺序

D、调整图像亮度、对比度和饱和度

E、颜色空间转换

答案：ADE

题目难度：中等

关联知识点：计算机视觉-数据集增强

402.数据集增强在深度学习中的作用有（）。

A、帮助模型学习到更具代表性的特征

B、增强模型对数据变化的容忍度

C、使模型更加鲁棒

D、弥补数据不足的问题

E、降低模型训练难度

答案：ABCD

题目难度：中等

关联知识点：计算机视觉-数据集增强

403.在选择数据集增强方法时，需要考虑（）。

A、任务的特点和需求

B、数据的分布情况

C、计算资源和时间成本

D、模型的架构和复杂度

E、数据的标注质量

答案：ABCDE

题目难度：中等

关联知识点：计算机视觉-数据集增强