深度强化学习--试错法和奖励延迟机制

最新推荐文章于 2024-05-13 21:16:04 发布

北木.

最新推荐文章于 2024-05-13 21:16:04 发布

阅读量5k

点赞数 1

分类专栏：深度强化学习文章标签： DRL 试错法和奖励延迟机制

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43283397/article/details/99941641

版权

深度强化学习专栏收录该内容

15 篇文章 2 订阅

订阅专栏

1、疑问：
神经网络中对试错法机制的错误理解：
神经网络的参数训练方式是通过试错法进行的，因为神经网络进行学习就是利用学习过程中的错误信息来更新网络参数的。
(为什么这样理解有问题，还需要自己思考)
书中说的是错误地理解了试错法学习的原理和机制

2、强化学习并不是输入一个状态，模型就映射到一个动作(这是传统的机器学习的方法)。强化学习是通过应用这些映射动作，得到一系列的反馈奖励值，然后从中选出最大奖励值的那个动作。也就是说，得到一个状态到动作的映射还不是结束，只有当应用这个动作得到最终的奖励值时，才能够确定到底哪一个动作才是好的。这相当于一种标签延后的学习方法。此外，当前状态采取的动作不仅要影响状态下得到的奖励值，还可能会影响周围环境的状态，因此也会影响接下来状态奖励值。因此强化学习具有两个明显的特征：试验式求解方式(Trial-and-Error, 试错法)和奖励延迟机制(Delayed Reward)

《深度强化学习–彭伟》

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
深度强化学习--试错法和奖励延迟机制

1、疑问：神经网络中对试错法机制的错误理解：神经网络的参数训练方式是通过试错法进行的，因为神经网络进行学习就是利用学习过程中的错误信息来更新网络参数的。(为什么这样理解有问题，还需要自己思考)书中说的是错误地理解了试错法学习的原理和机制2、强化学习并不是输入一个状态，模型就映射到一个动作(这是传统的机器学习的方法)。强化学习是通过应用这些映射动作，得到一系列的反馈奖励值，然后从中选出最...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。