《强化学习》基础知识（一）

最新推荐文章于 2023-04-18 10:54:00 发布

小小_星辰

最新推荐文章于 2023-04-18 10:54:00 发布

阅读量1k

点赞数

本文链接：https://blog.csdn.net/qq_42594874/article/details/103810367

版权

强化学习解决什么问题
⼀句话概括强化学习能解决的问题：序贯决策问题。
强化学习如何解决问题，和监督学习的区别
与之相对的是监督学习，监督学习解决的是智能感知的问题。比如手写体数字识别，通过多样化的标签数据来训练智能体，让智能体学习到输入样本的抽象特征并分类。
强化学习要解决序贯决策问题，不关心输入长什么样，只关心当前状态下应该采取什么动作才能实现最终的目标，即让整个任务序列达到最优。智能体通过动作和环境交互，环境返给智能体当前状态的回报，智能体根据回报评估采取的动作：有利于实现目标的动作被保留，不利于目标的动作被衰减。通过带有回报的交互数据训练智能体
强化学习分类
1）根据是否依赖（环境和智能体）模型分为基于模型的RL和无模型的RL。智能体在探索环境时已知转移概率，回报函数，折扣因子等。基于模型效率更高，无模型更具通用性
2）根据策略的更新和学习方法分为基于值函数的RL、基于策略搜索的RL和AC（a

关注