强化学习中有模型和无模型的理解与应用

MBRL和MFRL中的模型(M)指什么?

在 MBRL(Model-Based Reinforcement Learning) 和 MFRL(Model-Free Reinforcement Learning) 中,"模型 (Model)"是数字仿真(world model)的概念可以理解为是真实环境的状态转移函数,即 (s,a)→s_next,当前步的状态动作对到下一次步的映射。

MBRL和MFRL的梳理

强化学习(RL)中的两大类方法是基于模型的强化学习(MBRL)和无模型强化学习(MFRL)。MBRL侧重于学习环境的模型,并利用环境模型进行决策;MFRL直接从交互数据中学习,无需构建环境模型。它们的分类逻辑如下:

(a) 基于模型的强化学习 (MBRL)

1) Offline RL

(i) MBPO: 基于模型的策略优化。

(ii) MOREC: 利用环境模型进行离线学习。

(iii) ...

2) Online RL

(i) Policy Based: 通过直接优化策略进行学习。

a) PG: 策略梯度方法。

b) REINFORCE: 一种经典的策略梯度算法。

c) ...

(ii) Value Based: 通过学习价值函数进行决策。

a) Q Learning: 经典的值函数学习方法。

b) DQN: 深度Q网络,通过神经网络近似Q值。

c) DQN变体: DQN的不同改进版本。

d) ...

(b) 无模型强化学习 (MFRL)

1) Online RL

(i) Value Based & Policy Based: 同时学习价值函数和策略。

a) AC: Actor-Critic方法。

b) SAC: 软行为者-评论家方法。

c) A2C/A3C: 异步优势行为者-评论家。

d) DDPG: 深度确定性策略梯度。

e) TD3: 双延迟深度确定性策略梯度。

f) TRPO: 信赖域策略优化。

g) PPO: 近端策略优化。

h) ...

2) Offline RL

(i) CQL: 保守Q学习。

(ii) MOPO: 模型引导的策略优化。

(iii) BCQ: 批量约束Q学习。

(iv) ...

MBRL和MFRL的应用场景

基于模型的强化学习(MBRL) 和 无模型强化学习(MFRL) 在不同的应用场景下有各自的优势和适用性。

MBRL 通常适用于只有历史数据的场景。在这种情况下,MBRL 可以通过学习环境模型,基于此再进行决策模型训练,即使在数据有限的情况下也能够有效利用已有的数据。然而,MBRL 在面对有仿真的环境时不是好的选择,因为训练一个数字仿真模型可能会引入分布偏移和多步累计误差,这会影响最终的决策模型的准确性和策略的效果。因此,如果环境已经可以进行有效的仿真,直接利用MBRL的方式训练会更为合适。

MFRL 则在应用中更加灵活。它可以适用于有仿真的情况以及仅有历史数据的情况。在仿真环境中,MFRL 可以直接从仿真交互中学习策略,无需额外构建和训练一个环境模型。即使在仅有历史数据的情况下,MFRL 也能通过直接从数据中直接学习决策模型

总之, MFRL 提供了在各种数据条件下的灵活性,特别是在仿真环境中,直接利用仿真数据进行策略学习通常更加高效和可靠。MBRL 更适合于利用有限历史数据进行学习,并随着目前深度学习的发展,这个world model会学习的更加准确。

  • 5
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
内容介绍 项目结构: Controller层:使用Spring MVC来处理用户请求,负责将请求分发到相应的业务逻辑层,并将数据传递给视图层进行展示。Controller层通常包含控制器类,这些类通过注解如@Controller、@RequestMapping等标记,负责处理HTTP请求并返回响应。 Service层:Spring的核心部分,用于处理业务逻辑。Service层通过接口和实现类的方式,将业务逻辑与具体的实现细节分离。常见的注解有@Service和@Transactional,后者用于管理事务。 DAO层:使用MyBatis来实现数据持久化,DAO层与数据库直接交互,执行CRUD操作。MyBatis通过XML映射文件或注解的方式,将SQL语句与Java对象绑定,实现高效的数据访问。 Spring整合: Spring核心配置:包括Spring的IOC容器配置,管理Service和DAO层的Bean。配置文件通常包括applicationContext.xml或采用Java配置类。 事务管理:通过Spring的声明式事务管理,简化了事务的处理,确保数据一致性和完整性。 Spring MVC整合: 视图解析器:配置Spring MVC的视图解析器,将逻辑视图名解析为具体的JSP或其他类型的视图。 拦截器:通过配置Spring MVC的拦截器,处理请求的预处理和后处理,常用于权限验证、日志记录等功能。 MyBatis整合: 数据源配置:配置数据库连接池(如Druid或C3P0),确保应用可以高效地访问数据库。 SQL映射文件:使用MyBatis的XML文件或注解配置,将SQL语句与Java对象映射,支持复杂的查询、插入、更新和删除操作。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值