【深度强化学习笔记】--第一节:强化学习模型

1.强化学习

强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题 。
强化学习的常见模型是标准的马尔可夫决策过程(Markov Decision Process, MDP)。按给定条件,强化学习可分为基于模式的强化学习(model-based RL)和无模式强化学习(model-free RL) ,以及主动强化学习(active RL)和被动强化学习(passive RL) 。强化学习的变体包括逆向强化学习、阶层强化学习和部分可观测系统的强化学习。求解强化学习问题所使用的算法可分为策略搜索算法和值函数(value function)算法两类。深度学习模型可以在强化学习中得到使用,形成深度强化学习 。

2.基本模型

在这里插入图片描述
●智能体(Agent):强化学习的本体,作为学习者或决策者存在;
●环境(Environment):智能体以外的一切,主要指状态;
状态(States):表示环境的数据,状态集是环境中所有可能的状态;
●动作(Actions):智能体可以作出的动作,动作集是智能体可以作出的所有
动作;
●奖励(Rewards):智能体在执行一个动作后,获得的正负奖励信号
●策略(Policy):从状态到动作的映射,智能体基于某种状态选择某种动作
的过程。

3.学习过程

Step1:智能体感知环境状态;
Step2:智能体根据某种策略做出动作;
Step3:动作作用于环境导致环境状态改变;
Step4:同时,环境向智能体发出一个反馈信号。

4.强化学习目标

智能体寻找在连续时间序列里的最优策略最优策略是指使得长期累
积奖励最大化的策略。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值