-
强化学习解决什么问题
⼀句话概括强化学习能解决的问题:序贯决策问题。 -
强化学习如何解决问题,和监督学习的区别
与之相对的是监督学习,监督学习解决的是智能感知的问题。比如手写体数字识别,通过多样化的标签数据来训练智能体,让智能体学习到输入样本的抽象特征并分类。
强化学习要解决序贯决策问题,不关心输入长什么样,只关心当前状态下应该采取什么动作才能实现最终的目标,即让整个任务序列达到最优。智能体通过动作和环境交互,环境返给智能体当前状态的回报,智能体根据回报评估采取的动作:有利于实现目标的动作被保留,不利于目标的动作被衰减。通过带有回报的交互数据训练智能体
-
强化学习分类
1)根据是否依赖(环境和智能体)模型分为基于模型的RL和无模型的RL。智能体在探索环境时已知转移概率,回报函数,折扣因子等。基于模型效率更高,无模型更具通用性
2)根据策略的更新和学习方法分为基于值函数的RL、基于策略搜索的RL和AC(a
《强化学习》基础知识(一)
最新推荐文章于 2023-04-18 10:54:00 发布