强化学习基础知识

最新推荐文章于 2023-10-04 19:50:02 发布

hezzfew

最新推荐文章于 2023-10-04 19:50:02 发布

阅读量1.6k

点赞数

分类专栏：数据分析机器学习文章标签：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hezzfew/article/details/109187332

版权

强化学习基础知识

1. 概念

强化学习四要素：状态(state)、动作(action)、策略（policy）、奖励(reward)。
在这里插入图片描述
强化学习就是考虑的是智能体（Agent）与环境（Environment）的交互问题：

这里是引用智能体处在一个环境中，每个状态为智能体对当前环境的感知；智能体只能通过动作来影响环境，当智能体执行一个动作后，会使得环境按某种概率转移到另一个状态；同时，环境会根据潜在的奖赏函数反馈给智能体一个奖赏。
— 周志华《机器学习》

强化学习的目标是找到一个最优策略，使智能体获得尽可能多的来自环境的奖励。例如赛车游戏，游戏场景是环境，赛车是智能体，赛车的位置是状态，对赛车的操作是动作，怎样操作赛车是策略，比赛得分是奖励。在论文中中常用观察(Observation)而不是环境，因为智能体不一定能得到环境的全部信息，只能得到自身周围的信息。

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
强化学习基础知识

强化学习基础知识1. 概念强化学习四要素：状态(state)、动作(action)、策略（policy）、奖励(reward)。强化学习就是考虑的是智能体（Agent）与环境（Environment）的交互问题：这里是引用智能体处在一个环境中，每个状态为智能体对当前环境的感知；智能体只能通过动作来影响环境，当智能体执行一个动作后，会使得环境按某种概率转移到另一个状态；同时，环境会根据潜在的奖赏函数反馈给智能体一个奖赏。— 周志华《机器学习》强化学习的目标是找到一个最优策略，使智能体获得尽
复制链接

扫一扫

专栏目录

hezzfew CSDN认证博客专家 CSDN认证企业博客

码龄9年

55: 原创

11万+: 周排名

136万+: 总排名

5万+: 访问

: 等级

780: 积分

16: 粉丝

36: 获赞

7: 评论

181: 收藏

私信

关注

热门文章

分类专栏

最新评论

DDPG 算法
m0_64064639: 你好，我这里有个用DDPG预测股价的项目，有个问题找不出原因，能帮忙看下吗？有偿。可以加下我微信w2253676401
DDPG 算法
wlhqwe: 讲的太好了，支持
DDPG 算法
向彪-blockchain: 我会认真研读的,谢谢大佬,辛苦辛苦!
数据链路层--计算机网络
xzy实验室: 感谢楼主，总结的很好，很有帮助<img src="http://forum.csdn.net/PointForum/ui/scripts/csdn/Plugin/001/face/42.gif" title="" />，不过，有许多错别字，万恶的输入法<img src="http://forum.csdn.net/PointForum/ui/scripts/csdn/Plugin/001/face/17.gif" title="" />，大家参考的时候要注意一下<img src="http://forum.csdn.net/PointForum/ui/scripts/csdn/Plugin/001/face/13.gif" title="" />
数据链路层--计算机网络
xzy实验室: 感谢楼主，总结的很好，很有帮助<img src="http://forum.csdn.net/PointForum/ui/scripts/csdn/Plugin/001/face/42.gif" title="" />，不过，有许多错别字，万恶的输入法<img src="http://forum.csdn.net/PointForum/ui/scripts/csdn/Plugin/001/face/17.gif" title="" />，大家参考的时候要注意一下<img src="http://forum.csdn.net/PointForum/ui/scripts/csdn/Plugin/001/face/13.gif" title="" />

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。