自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 Plannet以及Dreamer(V1,V2,V3)系列对比与总结

利用这些真实的序列数据,通过最大化**证据下界 (ELBO)**来训练世界模型的各个组件(RSSM动态模型、图像重构模型、奖励预测模型)。(交叉熵方法, CEM),在其内部的RSSM世界模型中进行数千次“沙盘推演”,以找到当前最优的动作并执行。“剧本”,PlaNet会纯粹在潜在空间中,利用其学到的转移模型和奖励模型一步步地“想象”出未来的状态和奖励,并计算出这个“剧本”的预期总分。取而代之的是,它学习了一个独立的**演员-评论家 (Actor-Critic)**网络。: 这是最重要的改进。

2025-10-13 14:57:11 1496

原创 DREAM TO CONTROL: LEARNING BEHAVIORSBY LATENT IMAGINATION(论文精读)

《Dreamer:基于潜在想象的强化学习智能体》摘要:Dreamer是一种新型强化学习智能体,通过在世界模型的潜在空间中进行想象训练来学习长期行为。该方法结合了演员-批评家框架与世界模型,利用解析梯度反向传播优化策略,解决了传统方法在视觉控制任务中的短视行为和优化效率低的问题。实验表明,Dreamer在20个DeepMind Control Suite任务中,在数据效率、计算时间和最终性能方面均超越现有方法。该研究展示了潜在想象在解决复杂视觉控制任务中的有效性,为基于模型的强化学习提供了新思路。

2025-09-29 11:10:11 816

原创 Learning Latent Dynamics for Planning from Pixels(文章精读)

本文提出深度规划网络PlaNet,一种基于模型的强化学习方法,通过潜在空间学习和规划实现高效视觉控制。PlaNet采用创新的循环状态空间模型(RSSM),将状态分解为确定性RNN路径和随机性路径,以平衡记忆与不确定性表达。通过潜在超调技术优化多步预测能力,结合交叉熵方法在潜在空间高效规划。实验表明,PlaNet在DeepMind控制套件的视觉任务中,仅用1/200的数据量即达到与顶尖无模型算法相当的性能,验证了模型驱动方法在视觉控制任务中的高效性。该工作为后续Dreamer系列算法奠定了基础。

2025-09-24 18:08:45 992

原创 A Path Towards Autonomous Machine Intelligence Version(文章精读)

这篇文章提出了一种自主智能体的架构和训练范式,旨在解决机器学习的三大挑战:1. 通过观察高效学习世界模型 2. 实现与梯度学习兼容的推理和规划 3. 学习多层次的感知和行动表征 核心架构包括: 可微分的模块化系统(感知、世界模型、成本模块、行动者等) 联合嵌入预测架构(JEPA)及其分层版本(H-JEPA) 非对比性自监督学习范式 关键技术突破: 通过潜在变量处理预测不确定性 使用VICReg等非对比方法训练信息丰富且可预测的表征 基于能量的模型框架实现多模态预测 该架构支持两种行为模式: 模式1:快速反应

2025-09-23 16:43:44 900

原创 Understanding World or Predicting Future? A Comprehensive Survey of World Models(论文精读)

摘要:本文系统综述了世界模型的研究进展与应用。世界模型作为实现通用人工智能的关键工具,主要分为两类功能:构建内部表征以理解世界运行机制,以及预测未来状态以辅助决策。文章首先分析了基于强化学习和语言模型的世界建模方法,探讨了视频生成模型(如Sora)在物理世界预测方面的能力与局限。随后重点介绍了世界模型在自动驾驶、机器人技术和社会模拟三大领域的应用,其中机器人领域通过视觉生成模型和具身环境模拟显著提升了适应能力。最后,文章指出当前世界模型在物理规则一致性、社会维度模拟、伦理安全等方面仍存在挑战,并建议将物理模

2025-09-16 13:51:18 1323

原创 Recurrent World Models Facilitate Policy Evolution(文章精读)

摘要:本文探讨了基于世界模型的强化学习方法,提出了一种由视觉编码器(V)、预测模型(M)和控制器(C)组成的智能体架构。V通过变分自编码器压缩视觉输入,M使用混合密度RNN预测未来状态,而简单的线性控制器C则基于这些表征做出决策。实验表明,该方法在CarRacing和VizDoom环境中取得了优异表现,并能在完全由模型生成的虚拟环境中训练策略后成功迁移到真实环境。研究还发现,通过调整温度参数控制模型的不确定性,可防止智能体利用模型缺陷。文章讨论了该方法在计算效率、模拟到现实迁移等方面的优势,同时也指出了当前

2025-09-15 16:08:17 1035

原创 tensorboard学习

获得log_vars中的loss的名称(K)和对应的值(v)来获得写入tensorboard的数据。2、通过获得logs文件中loss的数据,向tensorboard写入表格数据。得到一个封装之后的接口 tb_logger。对tensorboard进行封装。1、初始化,得到输入的地址。

2023-09-26 11:38:51 313 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除