Q Learning

用一个actor pie 与环境交互,然后学习得到这个actor的Q函数,然后通过某种方法找到一个pie plus,它的Q函数更好,如此往复,actor越来越好

double DQN,因为被高估的action,容易被选中,导致最后的Q函数高估。所以用run network选择action,target network 算值

dueling DQN, 将Q分解为V+A,A的和强制为0,这样更新V,可以更新到某些没有被抽样到的action

Prioritized reply TD error 大的样本,给更高的抽样优先级

multi step 样本不止考虑一步,可以考虑多步,Q函数的更新也考虑多步

Noise Net 在每一场游戏与环境互动前,对Q函数的参数上加一些噪音,比epison greedy方法好,原方法是在action空间上加noise,纯粹的乱尝试,现在在参数空间上加noise,是有策略的尝试

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值