强化学习理解

最新推荐文章于 2024-07-02 12:41:30 发布

月光下的向日葵

最新推荐文章于 2024-07-02 12:41:30 发布

阅读量716

点赞数

文章标签：机器学习人工智能算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Savage888777/article/details/129795492

版权

状态价值函数：
表征当前状态的价值。
比如在下围棋时，当前局势的获胜几率。
马尔科夫决策过程：
未来仅依赖于当前状态而与历史状态无关。
即过去状态与未来状态条件独立。
衰减系数γ：
用来对未来的奖励做惩罚；
未来的100元奖励不如当前的100元奖励，未来的奖励会随着时间推移而消失。数学上，有了衰减系数，无需在乎将来太远的奖励（都被指数衰减掉了）；
使用衰减系数，我们无需担心状态转移图存在无限循环；
未来的奖励不会提供直接收益；
目标策略函数：
行为的概率分布*行为价值函数 Q

贝尔曼方程：
将价值函数分解为=直接奖励+衰减后的未来奖励

动态规划：
如果概率P或者回报R完全已知，则可以用动态规划迭代地对问题进行求解。如果模型完全已知，则基于贝尔曼方程，可以直接用动态规划计算价值函数，并进行策略改进。包括策略评估、策略改进和策略迭代。

蒙特卡洛方法：
不需要对模型进行建模，但要求完整的一轮样本。通过完整一轮样本（过程）S1,A1,R2,…,St 来求经验回报。并且所有轮必须到达终态。
估计回报等于所有回报在每一轮衰减后的平均值和

时间差分方法：
不需要模型，也不需要完整的样本，而是从每轮的经验中学习。是对蒙特卡洛方法的改进，可以从不完整的一轮数据中学习，因而无须使任务执行到终止态。因此也叫提升法bootstrapping。主要是通过value estimation更新价值函数

MC与TD的对比：
MC方法依赖实际的奖励和完整的回报来

最低0.47元/天解锁文章

月光下的向日葵

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
强化学习理解

比如在AlphaGo里面，如何去衡量每一步棋下的“好”与“坏”，并且最终量化，这是一个非常棘手的问题。实际应用时，部分场景这是一个十分庞大的数字，对于训练时长，算力开销是十分庞大的。网上经常有人截图爆出打游戏碰到了王者荣耀AI，明明此时推塔或者推水晶是最合理的行为，但是AI却去打小兵，因为AI采取的是一个局部最优的行为。策略梯度：策略梯度算法直接学习策略本身，通过参数sita，定义奖励函数为期望回报，算法的目标是最大化奖励函数。不需要模型，也不需要完整的样本，而是从每轮的经验中学习。,St 来求经验回报。
复制链接

扫一扫

月光下的向日葵 CSDN认证博客专家 CSDN认证企业博客

码龄5年

63: 原创

7万+: 周排名

224万+: 总排名

11万+: 访问

: 等级

1213: 积分

32: 粉丝

75: 获赞

20: 评论

568: 收藏

私信

关注

热门文章

最新评论

ROS TF原理和使用方法
oblivious_123: cmakelists没有添加依赖的库，要粘贴一句代码好像是target link什么的
Android实现MQTT客户端
Best　: 你用的哪个版本的库
STM32外部中断详解（3个开关产生中断来控制LED灯）
zhongerzadila: IO口初始化函数IO_cfg()里面输入模式的GPIO口为什么要设置速度？
STM32四种输入模式
JA2000: 在另一篇纹章看到一模一样的，你们到底是谁copy谁的
DWA调试
茄子爱跑步: 我也遇到了同样的问题，最后得出的结果是DWA参数的速度，加速度参数设置不合理。建议使用动态参数配置调参rosrun rqt_reconfigure rqt_reconfigure。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。