西瓜书《机器学习》课后答案——chapter16_强化学习

本文详细解析了强化学习中的UCB方法、ϵ-贪心法和Softmax策略的异同,并介绍了基于γ折扣奖赏函数的策略评估与策略迭代算法。此外,探讨了模型强化学习与免模型强化学习的优缺点,以及Sarsa算法的更新公式。还提出了线性值函数近似在Sarsa算法中的应用及其推广到神经网络和核方法的情况。
摘要由CSDN通过智能技术生成

1.用于K-摇臂赌博机的UCB(Upper Confidence Bound)方法每次选择 Q(k)+UC(k) 最大的摇臂,其中 Q(k) 为摇臂k当前的平均奖赏, UC(k) 为置信区间。例如:

Q(k)+2lnnnk

其中,n为已执行所有摇臂的总次数, nk 为已执行摇臂k的次数。比较UCB方法与 ϵ -贪心法和Softmax方法的异同。

解答:

ϵ -贪心:
- 在时刻 t ,为每个行为估计平均奖赏 Qt(a)
- 以 1ϵ 的概率选择最大奖赏对应的行为

At=argmaxaQt(a)

- 以 ϵ 的概率等概率地从所有行为中选择一个

ϵ -贪心每次随机选择一个行为进行探索,没有对优质行为进行更多探索;另外如果一个行为已经执行很多次了,那么没有必要再对它进行探索了。

Softmax:
- 在时刻 t ,为每个行为估计平均奖赏 Qt(a)
- 以下面的概率分布选择行为

P(a)=eQt(a)τKi=1eQt(i)τ

Softmax方法平均奖励比较高的行为有更高的概率被选中。

UCB:
- 在时刻 t ,为每个行为估计平均奖赏 Qt(a) 以及 UCt(a)
- 选择 Qt(a)+UCt(a) 最大的那个行为

UCB中的 UCt(a) Qt(a) 的置信区间。当一个行为执行次数比较少时,对应的 UC(a) 比较大,即置信区间比较大,意味着 Q

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值