【强化学习】value-based VS policy-based

value-basedpolicy-based
代表作DQN, SARSApolicy gradient
outputQ(s,a)->greedy->actionp(a|s)->sample->action
key steps* policy evaluation
* policy improvement
* 建模策略函数 π θ \pi_{\theta} πθ
* 构建 advantage 函数
* 梯度上升
key method策略评估:值函数的求解问题(期望的计算:MC和TD)REINFORCEMENT算法对该优势函数的梯度进行估计
简单描述目的是找到正确评估策略的值函数(Q(s,a)和V(s)),根据这个通过“探索和利用”选择某一状态最好的行为(这个优化的想法可能更偏直觉,认为贪婪是最优)目标是是一个episode的累积奖励最大化,所以用似然函数构建了一个目标函数,采用梯度上升的方法进行优化(想法更偏数学优化)
优缺点缺点:一般应用在状态空间为离散的情况

参考:优缺点分析
参考:两者对比

参考:两者对比

(持续跟新…)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值