57、关于ES算法,选择正确的一项:( )A. ES算法在每一代中生成多个�(�)(0 ≤ � < �)作为策略参数�的变化。B. ES算法在每一代中生成多个�(�)(0 ≤ � < �)作为价值参数w的变化。C. ES算法在每一代中生成多个�(�)�和�(�)w(0 ≤ � < �)作为策略参数�和价值参数w的变化。
A
58、与基于策略的无梯度算法相比,选择正确的一项:( )A. 策略梯度算法倾向于更彻底地探索。B. 策略梯度算法倾向于有更好的样本效率。C. 策略梯度算法更适合并行计算。
B
59、以下哪种类型的强化学习算法与分布强化学习算法最为契合:( )A. 最优值强化学习算法。B. 策略梯度强化学习算法。C. 演员 - 评论家强化学习算法。
A
60、考虑一个连续随机变量 �。其概率密度函数为 �,分位数函数为 �。则其期望满足:( )A. E[�] = E[�(�)]。B. E[�] = E�∼均匀分布[0,1][�(�)]。C. E[�] = E[�(�)] 且 E[�] = E�∼均匀分布[0,1][�(�)]。
B
61、关于分布式强化学习算法,选择正确的一项:( )A. 分类深度Q网络(Categorical DQN)和分位数回归深度Q网络(QR - DQN)试图最小化分位数回归Huber损失。B. 分类深度Q网络(Categorical DQN)和隐式分位数网络(IQN)试图最小化分位数回归Huber损失。C. 分位数回归深度Q网络(QR - DQN)和隐式分位数网络(IQN)试图最小化分位数回归Huber损失。
C
62、关于分布强化学习算法,选择正确的一项:( )A. 类别深度Q网络(Categorical DQN)随机采样多个累积概率值进行决策。B. 分位数回归深度Q网络(QR - DQN)随机采样多个累积概率值进行决策。C. 隐式分位数网络(IQN)随机采样多个累积概率值进行决策。
C
63、在类别深度Q网络(Categorical DQN)中,当类别分布的支持集形式为�(�) = �(0) + �△�(�∈I)时,从�( �) = �+ ��( �) (�∈I)到�(�) (�∈I)的投影比率是:( )A. clip[�( �) −�(�)△�, 0, 1] B. 1 −clip[�( �) −�(�)△�, 0, 1] C. 1 −clip[clip[�( �),�(0),�(|I|−1)]−�(�)△�, 0, 1]
C
64、在分布式强化学习算法中引入概率分布有什么优势?
在一些任务中,仅考虑期望值不足以全面考量任务,整个分布有助于做出更明智的决策。具体而言,一些任务不仅希望最大化回合奖励的期望值,还希望优化由整个分布决定的效用或统计风险(例如,尽量减小标准差),在这些情况下,考虑整个分布具有优势。
65、哪些强化学习算法可以最大化效用或最小化统计风险?为什么这些算法可以做到这一点?
- 可以最大化效用或最小化统计风险的RL算法是 分布强化学习(distributional RL)算法 ,包括:
- 最大效用RL(Maximum Utility RL)
- Categorical Deep Q Network (C51) 算法
- Quantile Regression Deep Q Network (QR-DQN) 算法
-
Implicit Quantile Network (IQN) 算法
-
这些算法可以做到这一点是因为它们维护了动作值随机变量的整个分布,而不仅仅是期望值。
-
在一些任务中,仅考虑期望值不足以全面考虑任务,整个分布有助于做出更明智的决策,例如一些任务不仅希望最大化奖励的期望值,还希望优化由整个分布决定的效用或统计风险(如最小化标准差)。
66、以下哪个性能指标在在线强化学习(RL)任务中特别受关注:( )A. 后悔值。B. 收敛速度。C. 样本复杂度。
A
67、关于后悔值,选择正确的一项:( )A. 后悔值是在线学习任务的重要性能指标。B. 后悔值是离线学习任务的重要性能指标。C. 后悔值是在线学习任务和离线学习任务的重要性能指标。
A
68、关于UCB,选择正确的一项:( )A. UCB算法只能用于有界奖励的任务。B. UCB1算法只能用于有界奖励的任务。C. 贝叶斯UCB算法只能用于有界奖励的任务。
B
69、以下哪种算法使用了贝叶斯方法:( )A. � - 贪心算法。B. UCB 算法。C. 贝叶斯 UCB 算法。
C
70、在多臂老虎机(MAB)问题中,选择正确的一项:( )A. 每一个臂的奖励分布是独立同分布的。B. 伯努利奖励多臂老虎机的奖励总是在[0, 1]范围内。C. 当使用贝叶斯UCB算法解决伯努利奖励多臂老虎机任务时,我们通常假设先验分布是伯努利分布。
B
71、关于有限马尔可夫决策过程(MDP)的上置信界值迭代(UCBVI)算法,选择正确的一项:( ) A. UCBVI算法需要知道环境的动态信息。 B. UCBVI算法是一种基于模型的算法。 C. UCBVI算法可以保证有限MDP的遗憾为 �( �max|S| √(|A|��max) )。
B
72、什么是后悔值?为什么在线强化学习关注后悔值?
后悔值定义为训练过程中各回合后悔值的总和,其中回合后悔值是训练完成后实际回合奖励与最优回合奖励之间的差值,我们倾向于较小的后悔值。 </

最低0.47元/天 解锁文章
1434

被折叠的 条评论
为什么被折叠?



