酒饮微醉--CSDN博客

原创论文阅读- A $(\frac32+\frac1{\mathrm{e}})$-Approximation Algorithm for Ordered TSP

A问题定义：论文首先定义了有序旅行推销员问题（OTSP），这是经典度量旅行推销员问题（TSP）的一个变体。在OTSP中，需要在输出的哈密顿回路中按照给定顺序包含一组特定的顶点。算法介绍：作者提出了一个新的近似算法，用于解决OTSP问题。这个算法的近似保证为((3/2 + 1/e))，相对于之前已知的最佳近似保证(5/2)有显著改进。线性规划松弛：论文引入了一个新的线性规划（LP）松弛方法，专门针对OTSP问题。这个松弛基于Held-Karp松弛，并通过使用不相交的变量集合来考虑顶点的给定顺序。算法设计。

2024-07-08 09:54:46 769 1

原创论文阅读-A Survey on Reinforcement Learning for Combinatorial Optimization

A背景介绍：论文首先介绍了组合优化问题，特别是旅行商问题（TSP），并强调了开发低复杂度算法来估计最优解的重要性。历史回顾：论文回顾了自20世纪50年代以来组合优化的发展历程，包括动态规划（DP）和贝尔曼方程的引入，以及它们在解决NP-hard问题中的应用。算法比较：通过比较20世纪70年代的二次分配算法和现代RL算法，论文展示了随着机器学习和计算技术进步，RL算法在解决TSP方面的发展。深度学习集成：论文介绍了深度RL（Deep RL）的概念，并探讨了如何通过注意力机制和特征编码来生成TSP的近似最优解。

2024-06-25 10:11:35 652

原创论文阅读-Less Is More - On the Importance of Sparsification for Transformers and Graph Neural Networks f

A问题背景：论文探讨了如何使用机器学习模型，特别是基于图神经网络（GNN）和变换器（Transformer）的编码器，来解决旅行商问题（TSP）。研究动机：作者指出，现有的研究直接在密集的TSP图上应用这些编码器，这会导致信息在节点间无差别地传播，使得节点嵌入包含大量不相关信息。稀疏化方法：为了解决这个问题，论文提出了两种数据预处理方法——k-最近邻（k-NN）启发式和1-树（1-Trees）方法——来稀疏化TSP图，使得编码器能够专注于图中最重要的部分。集成方法。

2024-06-24 12:04:45 883

原创论文阅读-Approximation Schemes for Orienteering and Deadline TSP in Doubling Metrics

A: 这篇论文主要研究了在特定图结构上的旅行商问题（TSP）及其相关变体的近似算法方案。问题定义：论文考虑了几种TSP的变体，包括k-漫步问题、点到点定向问题、截止时间TSP问题。这些问题都是在加权图中寻找路径，目标是在满足特定约束（如访问至少k个顶点、在预算内、在截止时间前）的同时，优化路径长度或访问顶点的数量。研究背景：论文提到了之前的研究工作，包括在欧几里得空间和一般度量空间上的TSP近似算法，以及对定向问题的研究。

2024-06-11 08:34:55 979

原创论文阅读-Quantum Annealing and Graph Neural Networks for Solving TSP with QUBO

A: 这篇论文主要探讨了如何利用量子退火（Quantum Annealing, QA）和图神经网络（Graph Neural Networks, GNNs）解决旅行商问题（Travelling Salesman Problem, TSP）。问题背景：介绍了TSP作为组合优化中的一个经典问题，以及其在物流、电子制造等领域的应用。量子退火（QA）：QA是一种量子启发式优化方法，利用量子隧穿效应来逃避局部最小值，加速发现全局最优解。图神经网络（GNN）

2024-06-06 09:13:03 604

原创论文阅读- CycleFormer : TSP Solver Based on Language Modeling

A: 这篇论文提出了一个名为CycleFormer的新型Transformer模型，专门用于解决旅行商问题（TSP）。问题背景：介绍了旅行商问题（TSP）及其在计算机科学中作为NP-hard问题的代表性，同时概述了传统解决方法，包括启发式算法和早期的深度学习尝试。CycleFormer模型：提出了一个新的Transformer模型，专为TSP设计。该模型考虑了TSP独特的特点，如无限和动态的token集合，以及解的循环性质。主要贡献。

2024-06-05 10:54:54 1111 1

原创论文阅读-Combined Constraint on Behavior Cloning and Discriminator in Offline Reinforcement Learning

强化学习（RL）因其能够自动学习最优行为策略而受到广泛关注。- 传统的RL需要与环境反复交互以获取经验，这在现实任务中可能成本高昂或危险。- 离线RL（Offline RL）作为一种研究领域，它不与环境交互，而是从预先准备好的经验数据中学习。- 直接应用常规RL方法到离线RL会遇到分布偏移（distributional shift）问题。- 本研究提出了一种新的离线RL算法，该算法在TD3+BC算法基础上引入了生成对抗网络（GANs）中的鉴别器（discriminator）约束。

2024-06-04 17:29:08 704

原创 TD3的定义离线强化学习在医疗领域的应用

5. **手术模拟和机器人手术**：在虚拟环境中训练RL模型，可以模拟手术过程，优化手术策略，甚至指导手术机器人执行精确的手术操作。2. **个性化治疗计划**：利用患者的医疗历史和基因信息，离线RL可以设计个性化的治疗方案，以最大化治疗效果和最小化副作用。6. **患者监护和管理**：离线RL可以用于分析患者的生命体征数据，预测病情变化，并制定相应的监护和管理计划。10. **临床试验设计**：离线RL可以帮助设计更有效的临床试验，通过模拟不同试验方案的结果来优化试验设计。

2024-05-21 15:28:00 155

原创论文阅读-THE GENERALIZATION GAP IN OFFLINE REINFORCEMENT LEARNING（ICLR 2024）

不过，所有的方法都有类似的generalization gap即二者的差值，证明了它们的泛化能力是类似的，同时也说明了BC在多样的数据集下训练能够获得非常好的性能，即使这些demonstration是suboptimal的。在次优数据集上(图18 )，所有方法的训练和测试性能都很差，与先前的工作相反，在我们的设置中，当我们从行为策略的训练日志中的子集上采样并训练离线学习算法时，得到的离线学习策略根本没有泛化能力，甚至在200个训练水平上也没有表现出良好的性能。对于其余算法，见附录中的图16。

2024-05-07 11:02:11 1191 1

原创论文阅读--Q-Transformer: Scalable Offline Reinforcement Learning via Autoregressive Q-Functions

通过离散每个动作维度并将每个动作维度的Q值表示为单独的token，我们可以将有效的高容量序列建模技术应用于Q学习。的最后一步才有奖励。虽然这种设置对于广泛的偶发机器人操纵问题是合理的，但它并不具有普遍性，我们希望 Q-Transformer 在未来也能扩展到更广泛的环境中。我们的自回归Q学习更新背后的直觉是将每个动作的维度本质上视为一个单独的时间步长。解决这种问题的一种方法就是通过低估分布外的动作的Q值，从而确保最大值动作是分布内的。在我们的工作中，我们考虑稀疏奖励的任务，奖励只有0，1，并且仅在。

2024-04-22 10:19:51 906 1

原创论文阅读--Conservative Q-Learning for Offline Reinforcement Learning

在强化学习( RL )中有效地利用以前收集的大量数据集是大规模实际应用的关键挑战。离线RL算法承诺从先前收集的静态数据集中学习有效的策略，而无需进一步的交互。然而，在实际应用中，离线RL是一个主要的挑战，标准的离线RL方法可能会由于数据集和学习到的策略之间的分布偏移而导致的过高估计，特别是在复杂和多模态数据分布上的训练时。在本文中，我们提出了保守Q学习( CQL )，旨在通过学习一个保守的Q函数来解决这些限制，使得一个策略在这个Q函数下的期望值低于其真实值。

2024-04-09 10:13:18 1405

原创论文阅读-Policy Optimization for Continuous Reinforcement Learning

我们进一步扩展这些结果，以说明它们在PG (策略梯度)和TRPO / PPO (信赖域政策优化/近端政策优化)方法中的应用，这些方法在离散RL环境中是熟悉和强大的工具，但在连续RL中不发达。｡如果存在 q 函数 oracle,则可以获得策略梯度的无偏估计(其收敛分析遵循)｡由于缺少这样的预言,我们采用广义优势估计 (GAE) 技术来获得 q(Xt, at)≈(Q∆t(Xt, at;π)) /δt≈(rtδt + e−βδtV (Xt+δt)−V (Xt))/δt｡这产生了策略梯度算法 1｡

2024-03-28 10:41:26 1031 1

原创论文阅读--When Demonstrations Meet Generative World Models: A Maximum Likelihood Framework for Offline

通过多个实验集合评估提出的算法，包括不同类型的数据集（medium-replay，medium，medium-expert）和三个环境（halfcheetah，hopper，walker2d）。在估计动态模型后，相应的算法（Offline ML-IRL和CLARE）将进一步利用专家示范数据集DE中的专家轨迹来恢复真实的奖励函数和模仿专家行为。在Offline ML-IRL的实现中，奖励网络使用（256, 256）的MLP参数化，其中输入为状态-动作对（s, a），输出为估计的奖励值r(s, a；

2024-03-28 08:29:42 606 1

原创论文阅读--Offline RL Without Off-Policy Evaluation

在本文中，我们证明了简单地使用行为策略的在策略Q估计进行约束/正则化策略改进的一步就表现出令人惊讶的好处。我们认为，迭代方法的相对较差的性能是由于在进行政策外评估时固有的高方差，并被政策对这些估计的反复优化所放大。本文主要介绍了一种离线强化学习算法——一步算法(one-step algorithm)，该算法只使用行为策略(beta)的一个在线Q值估计，进行一步的约束/正则化策略改进，从而实现强化学习。该算法在D4RL基准测试中的表现超过了迭代算法的表现，并且相对于迭代算法而言更加简单、鲁棒性更高。

2024-03-25 15:49:46 1061

原创学习笔记--在线强化学习、离线强化学习、连续强化学习的区别（4）

在连续强化学习中，状态和动作都是连续的，这意味着智能体可以采取无限数量的动作，并且状态空间是连续的，而不是离散的点。- 策略评估和模型选择：在离线学习中，如何有效地评估不同策略和模型的性能，是一个重要的研究问题。- 连续学习和迁移学习：在线学习中，学习者需要不断在不同任务和环境中学习，研究者致力于研究如何将之前学到的知识迁移到新任务中，以实现更高效的学习和决策。- 连续动作选择和优化：在连续动作空间中，智能体对动作的选择是无限的，研究者在连续强化学习中通常关注如何有效地选择连续动作，以达到最优决策策略。

2024-03-20 11:01:08 1427

原创学习笔记--在线强化学习与离线强化学习的异同（3）

2. 训练环境：在强化学习中，智能体的训练通常在一个实时的环境中进行，智能体可以根据当前环境的状态来选择动作，并根据奖励信号来调整其策略。而在离线强化学习中，智能体已经获得了一系列先前的状态、动作和奖励数据，训练过程不再需要实时的环境交互。- 离线强化学习：智能体使用历史数据进行学习，其中的奖励是在数据收集时已经获得的，不是在模型学习时实时获得的。- 离线强化学习：智能体根据历史数据集中的动作-状态-奖励序列学习，这些动作是在数据收集阶段由其他策略产生的，智能体通过学习这些历史数据来优化其策略。

2024-03-18 09:05:31 1251

原创学习笔记--离线强化学习（2）

离线强化学习（Offline Reinforcement Learning，简称Offline RL）是深度强化学习的一个子领域，离线强化学习最初英文名为：Batch Reinforcement Learning , 后来Sergey Levine等人在其2020年的综述中使用了Offline Reinforcement Learning（Offline RL）, 现在普遍使用后者表示。

2024-03-15 10:50:53 1003

原创学习笔记--强化学习（1）

可以感知环境的状态（State），并根据反馈的奖励（Reward）学习选择一个合适的动作（Action），来最大化长期总收益。奖励信号定义了强化学习问题的目标，在每个时间步骤内，环境向强化学习发出的标量值即为奖励，它能定义智能体表现好坏，类似人类感受到快乐或是痛苦。探索（即估计摇臂的优劣）和利用（即选择当前最优摇臂) 这两者是矛盾的，因为尝试次数（即总投币数）有限，加强了一方则会自然削弱另一方。简直函数是未来奖励的一个预测，用来评估状态的好坏（折扣因子：希望尽可能在短的时间里面得到尽可能多的奖励）

2024-03-14 11:43:35 865

原创论文阅读---DeLF: Designing Learning Environments with Foundation Models

DeLF通过与大型语言模型的交互，从任务描述中提取出足够好的观测和动作表示，并生成初始的RL环境代码。总之，基础模型（如大型语言模型）设计观察和动作表示的方法是通过DeLF方法实现的，其包括初始化、通信和评估三个部分。本文详细讨论了如何利用大型语言模型（如GPT-4）设计和提取强化学习任务的观察和动作表示，并通过实验展示了DeLF方法在四个不同学习场景中的成功结果。充分动作空间：动作空间 A 的表示被称为与任务 τ 充分相关，如果在给定其他组件的正确设计时，A 导致任务 τ 的成功学习。

2024-03-11 10:07:08 1187 1

原创论文阅读--A Survey of Meta-Reinforcement Learning

元强化学习是将改进强化学习算法的发展看作是一个机器学习问题的方法，通过在给定任务分布的情况下学习一个能够适应任何新任务的策略，来提高强化学习算法的数据效率和泛化能力。文章详细描述了元强化学习的问题设定和主要变体，并根据任务分布和每个任务的学习预算将元强化学习研究进行了分类。总之，这篇论文并没有提出全新的理论，而是在已有理论的基础上，通过对元强化学习的全面调查、分类和应用分析，为该领域的研究方法提供了改进和优化。多次尝试的元强化学习：讨论多次尝试设置中的元强化学习，包括多任务和单任务问题。

2024-03-06 09:47:27 1073 1

原创论文阅读--Diffusion Models for Reinforcement Learning: A Survey

接着介绍了扩散模型的基础知识和在强化学习中的应用方法。然后讨论了扩散模型在强化学习中的不同角色，并对其在多个应用领域的贡献进行了探讨。在强化学习中，扩散模型可以用作数据合成器，通过从学习到的数据分布中生成合成数据，从而提高策略学习的效率和效果。通过使用扩散模型，可以生成逼真的轨迹，从而改善离线RL中的策略限制。在强化学习中，扩散模型可以用作数据合成器，生成与环境动态一致的合成数据，从而提高策略训练的效果。：这部分讨论了扩散模型的基础知识，以及在RL相关应用中特别重要的两类方法：引导采样和快速采样。

2024-03-02 17:43:22 1433

原创论文阅读---CASCADING REINFORCEMENT LEARNING

在实验中，CascadingVI与AdaptRM相比，实现了显著较低的遗憾值和运行时间，且随着N的增加，这种优势变得更加明显。在最佳策略识别目标下，CascadingBPI与AdaptBPI相比，具有较低的样本复杂度和运行时间，且随着N的增加，这种优势变得更加明显。qk,h(s',A)和q'k,h(s',A)分别表示在第k个episode的第h步，状态s'选择动作A的吸引概率。然而，如何在不枚举所有的A∈A的情况下关闭√H的差距仍然是一个未解决的问题，这将留待未来的研究。论文中的实验是如何设计的？

2024-02-29 09:24:31 1257

原创论文阅读--BRIDGING STATE AND HISTORY REPRESENTATIONS: UNDERSTANDING SELF-PREDICTIVE RL

此外，文章还讨论了使用stop-gradient来解决自预测损失中的表示崩溃问题，并提出了一种基于ALM算法的解耦表示学习和策略优化的方法。通过将状态和潜在状态相互关联起来，可以设计出一个简单的算法，用于学习自预测表示，从而提高强化学习任务的性能。根据任务特点，选择合适的表示学习目标，如自预测表示、观测预测表示或奖励预测表示。对于不确定的任务特点和目标选择，可以通过实验验证来确定最佳的表示学习目标和优化算法。通过这种方法，作者成功地在含有部分可观测性和稀疏奖励的POMDP任务中学习到了有效的历史表示。

2024-02-27 10:29:47 960 1

原创论文阅读--EFFICIENT OFFLINE POLICY OPTIMIZATION WITH A LEARNED MODEL

MuZero的离线版本算法（MuZero Unplugged）为基于日志数据的离线策略学习提供了一种很有前途的方法。它使用学习模型进行蒙特卡罗分析树搜索( MCTS )，并利用重新分析（Reanalyze）算法从离线数据中学习。为了获得良好的性能，MCTS需要精确的学习模型和大量的仿真，从而耗费巨大的计算时间。本文研究了MuZero的离线版本算法（MuZero Unplugged）在离线RL设置下可能无法正常工作的几个假设，包括1 )数据覆盖范围有限的学习；2 )从随机环境的离线数据中学习；

2024-01-02 23:03:58 1552

原创算法分析与设计（耿国华第二版）

【问题一】设有四个矩阵A1、A2、A3、A4，它们的维数分别是:50x10，10x40，40x30，30x5考察这4个矩阵的连乘积A1×A2×A3×A4，问如确定计算阵连乘积的计算次序使得依此次序计算矩阵连乘积需要的数乘次数最少?所以最小数乘次数为10500.最优计算次序为 A1（A2（A3 A4））。

2023-12-28 17:32:34 1126 1

原创算法分析与设计（耿国华第二版）

(2) 这个装载问题具有贪心选择性质，因为我们在每一步都做出了在当前看来最好的选择（选择重量最小的集装箱），并且这个局部最优选择能够导致全局最优解（装入轮船的集装箱数量最大）。在这个问题中，我们没有必要重新考虑以前的选择，也就是说，如果我们从轮船上卸下一个集装箱，那么剩下的集装箱仍然是最优装载方案。首先，我们将所有集装箱按照重量从小到大排序，得到：20、50、50、80、90、100、150、200。最后，我们得到的结果是：20、50、50、80、90、100，共6个集装箱可以装入轮船。

2023-12-26 19:56:54 403

原创算法设计与分析（耿国华第二版）

分治法与动态规划主要区别:① 分治法将分解后的子问题看成相互独立的.② 动态规划将分解后的子问题理解为相互间有联系,有重叠部分.（分治法是将一个问题划分成一系列独立的子问题，分别处理后将结果组合以得到原问题的答案。问题的复杂过程和规模的线性增长导致时耗的增长和空间需求的增长，对低效的算法来说是超线性的，绝非计算机的速度和容量的线性增长得来的时耗减少和存储空间的扩大所能抵消的。分支限界法：将问题分支为子问题并对这些子问题定界的步骤称为分支限界法，它对有约束条件的最优化问题的所有可行解的空间进行搜索。

2023-12-25 23:55:18 912

原创论文阅读--Behavior Proximal Policy Optimization

离线强化学习( RL )是一个具有挑战性的场景，现有的非策略行动者-评论家方法由于高估了分布外的状态-动作对而表现不佳。因此，提出了各种额外的增强来保持学习到的策略接近离线数据集(或行为政策)。在这项工作中，从分析离线单调策略改进出发，我们得到了一个令人惊讶的发现，一些在线在策略算法自然能够解决离线RL。具体来说，这些在策略算法固有的保守性正是离线RL方法需要克服高估的地方。

2023-12-13 12:37:33 1179 3

原创 Web数据管理课后习题答案（郭小群版）第六章

署在IIS和Windows上的ASP.Net Web应用和服务的安全性由IIS的安全性和Windows的安全系统管理，如图6.3所示，运行在IIS根目录，或运行在IIS目录创建的虚拟目录上的任何Web服务都由IIS安全机制管理。它的特性在于保证了传输过程中消息不会丢失或者错位，在连接掉线的时候，它会重新连接服务器，连接次数可在配置文件中设定，当在连接失败的时候，能自动释放对话所占用的资源。有关系统提供的绑定及其支持的Web 服务规范的完整列表，请参见：系统提供的互操作性绑定支持的 Web 服务协议。

2023-12-12 14:59:51 840

原创 Web数据管理课后习题答案（郭小群版）第五章

视图状态：在ASP.NET的早期，微软为了能帮助广大开发人员提高开发效率，引用入一大批的服务端控件，并为了能将事件编程机制引入ASP.NET中，又发明了视图状态。会话状态：会话状态是ASP.NET实现的一种服务端会话技术，它允许我们方便地在服务端保存与用户有关的会话数据。要连接Sender。答：由于数据存储在客户端，视图状态的好处是能最大限度的减少服务器的负担，数据存储在客户端，视图状态可以使服务器处理更多数量的访问。（5）DLL：它包含Windows环境下点的通用库函数，并与.exe文件有相同的格式。

2023-12-11 20:22:04 915 1

原创 Web数据管理课后习题答案（郭小群版）第四章

一个 DTD文档包含：元素的定义规则，元素间关系的定义规则，元素可使用的属性，可使用的实体或符号规则。一个XML Schema会定义：文档中出现的元素、文档中出现的属性、子元素、子元素的数量、子元素的顺序、元素是否为空、元素和属性的数据类型、元素或属性的默认和固定值。XSD是DTD替代者的原因，一是据将来的条件可扩展，二是比DTD丰富和有用，三是用XML书写，四是支持数据类型，五是支持命名空间。DTD即文档类型定义，是一种XML约束模式语言，是XML文件的验证机制,属于XML文件组成的一部分。

2023-12-10 16:25:42 849 1

原创 web数据管理课后习题答案（郭小群版）第三章

比如你的主目录指定为D盘下的wwwroot文件夹，有时候为了一些特殊目的，我们需要通过网站访问D盘下面的security目录下的内容，这时直接是无法访问的。因此，WSDL在web服务体系结构中很重要，因为它不但是用于描述服务的通用语言，而且是一个把服务自动集成到应用的平台。临时存放表所提供的功能：许多组织非正式地提供一个简单的服务列表或人工的服务注册中心，用户可以立即注册一个新的服务并通过浏览器列表人工搜索服务。一个端点是一个暴露在外的服务接口（方法名和参数），因此客户可以访问服务中的操作（方法）。

2023-12-09 17:38:54 876

原创 Web数据管理课后习题答案（郭小群版）第二章

方法使线程挂起，使当前执行的线程停下来等待，直至join()方法所调用的那个线程结束，再恢复执行。默认情况下，包含在不同进程/线程中的代码和数据是分离的，每一个都有它自己执行代码的副本、局部变量的栈、对象数据区以及其他数据元素。方法是一个可以被其它程序调用或者重用的代码块，方法通过名字、参数列表和返回类型来定义，编程时，方法作为程序的一个构件和控制流的一部分。调用sleep()方法使线程暂时停止一段执行时间，该时间由给定的毫秒数决定，线程在指定时间内不会运行，会自动唤醒，不会让出控制权。

2023-12-07 23:04:39 803

原创 Web数据管理课后习题答案（郭小群版）第一章

面向对象（OOC）应用由同一个团队使用相同的语言开发，而一个面向服务（SOC）应用是通过已开发好的服务创建，这些开发好的服务由独立的服务供应商开发。开发具有标准接口的软件服务，他们需要使用编程语言如C++、C#和JAVA以及面向服务的软件开发环境开发软构建以提供不同的服务，这些软构建类似于OOC中的类和对象。通过服务中介发现可用的服务并使用服务开发新的应用，通过发现和组合而不是传统的设计和编码来开发应用。是服务发现的支持者。这种面向服务的体系机构给应用构建者最大的灵活性去选择最好的服务中介以及服务。

2023-12-06 22:32:20 945 1

原创论文阅读---Evolution through Large Models(LLM做GP)通过大型模型的演变

本论文提出了一种名为Evolution through Large Models（ELM）的新方法，通过利用大型语言模型（LLM）的能力来提高编程领域的进化过程效率。这种方法允许LLM训练在代码上提出智能的突变，从而避免了许多阻碍程序进化的问题。ELM的优势在于它可以通过生成的数据来提高LLM的搜索能力，从而实现自我优化。此外，这种方法还可以在深度学习和遗传编程（GP）领域找到很多互补之处，从而实现更高效的程序生成。

2023-12-04 22:56:09 987

原创论文阅读--Automated design of search algorithms based on reinforcement learning

然而，大多数现有的研究都集中在进化算子的自动设计上，忽略了进化和替换的选择启发式，更不用说考虑所有的设计决策。通过在进化启发式仅选择的设计空间上的学习，本部分研究了三种具有不同熵系数设置的ACE变体，即ACE _ FS，ACE _ NLAS和ACE _ LAS，分别采用固定/非线性/线性的熵系数调整方案。值得注意的是，在所选的R1类型实例中，唯一的差异在于客户时间窗密度，即R101和R102的客户时间窗比例分别为100 %和75 %，而R103和R104的客户时间窗比例分别为50 %和25 %。

2023-12-01 22:04:05 872

原创论文阅读DIFFUSION POLICIES AS AN EXPRESSIVE POLICY CLASS FOR OFFLINE REINFORCEMENT LEARNING

Diffusion-QL有两个主要组成部分:使用扩散模型作为策略：通过将策略建立在条件扩散模型的逆向链上，扩散模型允许构建高度表达的策略类，同时其学习本身作为一种强大的策略正则化方法。Q-学习引导：通过联合学习的Q值函数，将Q-学习引导注入扩散策略的学习中。这使得在探索区域内的去噪采样向最优区域进行导向。

2023-11-29 19:54:27 1462 1

原创论文阅读 Offline RL —【DT】Decision Transformer: Reinforcement Learning via Sequence Modeling

我们引入了一个将强化学习(RL)抽象为序列建模问题的框架。这使我们能够利用Transformer架构的简单性和可扩展性，以及GPT-x和BERT等语言建模的相关进步。特别是，我们提出了Decision Transformer，一种将RL问题转换为条件序列建模的架构。与先前拟合价值函数或计算策略梯度的RL方法不同，Decision Transformer通过利用因果掩码的Transformer简单地输出最优动作。通过对期望回报(奖励)、过去状态和动作的自回归模型进行调节，我们的Decision Transfo

2023-11-28 23:36:33 1106 2

空空如也

空空如也