机器学习(周志华) 习题参考答案第十六章_机器学习第十六章课后答案-CSDN博客

本文链接：https://blog.csdn.net/nilgnaw/article/details/112008779

周志华老师的《机器学习》的第16章的习题答案较少，网上的参考答案链接分别为答案一和答案二。
以下是个人对这章的习题的理解，如有问题，欢迎指正。

16.1比较UCB方法与ϵ-贪心法和Softmax方法的异同。

1.UCB选则值最大的摇臂，是100%选择，而不是以一定概率选择；
2.Q+UC的设置，提高了目前被选中次数少的摇臂被选中的概率，同时也兼顾了希望平均奖赏高的摇臂被选中，实现了探索与利用的平衡；
3.nk为0时，此值为无限大，所以能保证每个摇臂都至少被选中一次，全探索。
区别：使用了不同的策略来平衡探索与利用。

16.2借鉴图16.7，试写出基于γ折扣奖赏函数的策略评估算法。

图中语句3改为：
终止条件为：abs(V(x)-V’(x))<theta。

16.3借鉴图16.8，试写出基于γ折扣奖赏函数的策略迭代函数。

同上

16.4在没有MDP模型时，可以先学习MDP模型(例如使用随机策略进行采样，从样本中估计出转移函数和奖赏函数)，然后再使用有模型强化学习方法。试述该方法与免模型强化学习方法的优缺点。

1.与免模型学习同样，不一定能获得所有状态-动作对；
2.采样次数越多，获得的转移函数和奖赏函数越准确，伴随而来的是存储的大量消耗，以及需要对部分无用的信息的处理，如奖励很小的状态转移也需要被计算，才能获得完整模型；
3.模型误差和强化学习误差可能会叠加，不过也有可能相互抵消。

16.5试推导出Sarsa算法的更新公式(16.31)。

本题参考了简析Monte Carlo与TD算法的相关问题以及本文末尾的两篇参考文章。
在这里插入图片描述

16.6借鉴图16.14给出线性值函数近似Q-学习算法。

图中语句5改为：a^’=π(x^’)。

16.7将线性值函数近似Sarsa算法推广为使用BP神经网络近似的Sarsa算法。

借鉴了DQN算法的思想，参考文章：DQN 的算法思想和代码实现
线性值函数近似中，使用了来获取值函数V。
若使用神经网络，输入与输出与线性值函数相同，输入为x和a，输出为V或Q。当有多个动作a时，输出为[Q(x,a1), Q(x,a2),…, Q(x,an)]向量。
神经网络使用时，要求样本是独立同分布的，所以需要对强化学习采样序列进行处理，消除样本间的前后相关性。基于马尔科夫决策过程(MDP)，可将<x,a,r,x’>作为一个样本（即DQN中的经验回放）。
得算法：
在这里插入图片描述