机器学习(周志华) 习题 参考答案 第十六章

周志华老师的《机器学习》的第16章的习题答案较少,网上的参考答案链接分别为答案一答案二
以下是个人对这章的习题的理解,如有问题,欢迎指正。

16.1比较UCB方法与ϵ-贪心法和Softmax方法的异同。

1.UCB选则值最大的摇臂,是100%选择,而不是以一定概率选择;
2.Q+UC的设置,提高了目前被选中次数少的摇臂被选中的概率,同时也兼顾了希望平均奖赏高的摇臂被选中,实现了探索与利用的平衡;
3.nk为0时,此值为无限大,所以能保证每个摇臂都至少被选中一次,全探索。
区别:使用了不同的策略来平衡探索与利用。

16.2借鉴图16.7,试写出基于γ折扣奖赏函数的策略评估算法。

图中语句3改为:
终止条件为:abs(V(x)-V’(x))<theta。

16.3借鉴图16.8,试写出基于γ折扣奖赏函数的策略迭代函数。

同上

16.4在没有MDP模型时,可以先学习MDP模型(例如使用随机策略进行采样,从样本中估计出转移函数和奖赏函数),然后再使用有模型强化学习方法。试述该方法与免模型强化学习方法的优缺点。

1.与免模型学习同样,不一定能获得所有状态-动作对;
2.采样次数越多,获得的转移函数和奖赏函数越准确,伴随而来的是存储的大量消耗,以及需要对部分无用的信息的处理,如奖励很小的状态转移也需要被计算,才能获得完整模型;
3.模型误差和强化学习误差可能会叠加,不过也有可能相互抵消。

16.5试推导出Sarsa算法的更新公式(16.31)。

本题参考了 简析Monte Carlo与TD算法的相关问题 以及本文末尾的两篇参考文章。
在这里插入图片描述

16.6借鉴图16.14给出线性值函数近似Q-学习算法。

图中语句5改为:a=π(x)。

16.7将线性值函数近似Sarsa算法推广为使用BP神经网络近似的Sarsa算法。

借鉴了DQN算法的思想,参考文章:DQN 的算法思想和代码实现
线性值函数近似中,使用了来获取值函数V。
若使用神经网络,输入与输出与线性值函数相同,输入为x和a,输出为V或Q。当有多个动作a时,输出为[Q(x,a1), Q(x,a2),…, Q(x,an)]向量。
神经网络使用时,要求样本是独立同分布的,所以需要对强化学习采样序列进行处理,消除样本间的前后相关性。基于马尔科夫决策过程(MDP),可将<x,a,r,x’>作为一个样本(即DQN中的经验回放)。
得算法:
在这里插入图片描述

16.8将线性值函数近似Sarsa算法推广为使用核函数的非线性值函数近似Sarsa算法。

对核方法理解的不透彻,不会啊。。。

16.9对于目标驱动(goal-directed)的强化学习任务,目标是达到某一状态,例如将汽车驾驶到预定位置。试为这样的任务设置奖赏函数,并讨论不同奖赏函数的作用(例如每一步未达目标的奖赏为0、-1或1)。

1.方向远离目的地奖赏为-1,方向接近目的地奖赏为1,到达目的地奖赏为0:
这种奖赏函数经过多轮迭代,可以找出一条最优的路径,即奖赏值最大的序列。
2.未达到目的地奖赏为0,到达目的地奖赏为1:
这种奖赏函数保证总有一条路径能到达目的地,但不一定是最优的,因为对错误状态转移没有进行惩罚。

16.10试设计一个考虑不同时刻数据分布变化的模仿学习算法。

1.可以使用惰性学习算法用于专家数据集,如KNN;
2.可以先对数据分布进行调整,加入超参使其尽量与监督学习时的专家数据集尽量接近,比如加贝叶斯框架。

参考文章

强化学习讲解系列,这个系列里每篇讲得都很好
强化学习–贝尔曼方程

  • 3
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值