强化学习概念

最新推荐文章于 2024-05-27 10:11:45 发布

Chevy_cxw

最新推荐文章于 2024-05-27 10:11:45 发布

阅读量1k

点赞数 1

分类专栏：机器学习文章标签：强化学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Chevy_cxw/article/details/118540607

版权

机器学习分为监督学习、非监督学习、强化学习。

强化学习把行为学习看作是反复实验的过程，从而把环境状态映射成相应的动作。强化学习是根据环境反馈，与环境进行交互，不断地试错，利用评价性的反馈信号实现决策的优化，为机器人环境自适应问题提供了有利的解决方案。

强化学习的基本思想：智能体通过与环境交互，根据环境反馈得到的奖励，不断地调整策略，寻找一个最佳决策，主要用来解决决策优化类问题。基本要素：策略、奖赏函数、值函数、环境模型。基本学习模型：

智能体根据目前的状态St，在动作空间中选择动作at，环境根据智能体做出的动作来反馈相应的奖励rt+1，并且转移到新的状态St+1，智能体根据得到的奖励调整自身策略，并针对新的状态做出新的决策。强化学习的特点是自学习和在线学习࿰

最低0.47元/天解锁文章

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
强化学习概念

机器学习分为监督学习、非监督学习、强化学习。强化学习把行为学习看作是反复实验的过程，从而把环境状态映射成相应的动作。强化学习是根据环境反馈，与环境进行交互，不断地试错，利用评价性的反馈信号实现决策的优化，为机器人环境自适应问题提供了有利的解决方案。强化学习的基本思想：智能体通过与环境交互，根据环境反馈得到的奖励，不断地调整策略，寻找一个最佳决策，主要用来解决决策优化类问题。基本要素：策略、奖赏函数、值函数、环境模型。学习过程可以描述为马尔科夫决策过程。基本学习模型：智能体根据目前的状态S
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。