强化学习
文章平均质量分 88
酒饮微醉-
软工的小菜鸡
展开
-
论文阅读--Decision-making in Autonomous Driving by Reinforcement Learning Combined with Planning
这些曲线显示了不同模型在训练过程中的表现,包括基线DDQN、带有引导训练的DDQN(G-DDQN)、带有引导训练和状态表示网络的DDQN(GR-DDQN)、带有引导训练、状态表示网络和安全规则的DDQN(GRS-DDQN),以及带有引导训练、状态表示网络、安全规则和对决网络架构的DDQN(GRSD-DDQN)。这个框架说明了如何将自动驾驶车辆的自我状态和周围车辆的状态合并,通过卷积神经网络(CNN)进行编码,然后将编码的信息与自动驾驶车辆的状态合并,形成新的输入状态向量,输入到策略网络中。原创 2024-10-23 10:34:05 · 924 阅读 · 1 评论 -
论文阅读--Long and Short-Term Constraints Driven Safe Reinforcement Learning for Autonomous Driving
然而,RL在训练过程中需要与环境进行大量的交互,这带来了很高的风险,尤其是在安全性至关重要的自动驾驶领域。此外,现有的安全RL方法虽然通过引入预期安全违规成本作为训练目标来提高安全性,但在训练过程中达到不安全状态的概率仍然很高,且难以在成本和回报之间取得平衡。本文提出的基于长期和短期约束的安全强化学习方法为自动驾驶领域提供了一种新的训练方法,通过在模拟器上的实验验证了其有效性。这种方法在提高自动驾驶训练过程的安全性和算法性能方面显示出了显著的优势,为未来的研究和实际应用提供了新的方向。原创 2024-10-11 20:52:50 · 876 阅读 · 1 评论 -
论文阅读--Long and Short-Term Constraints Driven Safe Reinforcement Learning for Autonomous Driving(二)
如图1所示,我们定义了可靠的状态空间 SfSf 和不可行的状态空间 SinfSinf。在自动驾驶中,车辆的状态轨迹需要被限制在可靠的状态空间内,以确保安全。短实体线和长虚线分别表示车辆的短期和长期轨迹,蓝点代表这些轨迹中的状态。解释:该图展示了如何通过区分可行和不可行状态空间来定义长期和短期约束,以确保自动驾驶车辆在训练过程中的安全性。原创 2024-10-11 20:53:33 · 398 阅读 · 1 评论 -
论文阅读--End-To-End Training and Testing Gamification Framework to Learn Human Highway Driving(二)
端到端学习框架能够模拟人类驾驶技能,并在游戏环境中控制车辆。尽管由于硬件限制导致模型推理速度受限,但研究结果仍然令人满意。未来的工作将集中在量化模型性能,并探索不同的用户和场景。本节介绍了如何利用现有的游戏化解决方案,例如《侠盗猎车手V》(GTA V),在典型的高速公路驾驶地图场景下,通过端到端学习的方法来学习人类驾驶技能。原创 2024-10-10 09:49:59 · 1092 阅读 · 0 评论 -
论文阅读--End-To-End Training and Testing Gamification Framework to Learn Human Highway Driving
本研究旨在开发一种基于游戏的端到端学习和测试框架,用于学习人类在高速公路上的驾驶技能,以提高自动驾驶汽车的性能。:利用流行的视频游戏《侠盗猎车手V》(GTA V)作为模拟环境,收集真实感强的驾驶数据,这在自动驾驶研究中是一种新颖的方法。:通过使用预训练的VGG-19模型,并采用转移学习策略,研究减少了训练时间和资源消耗,同时提高了模型的学习效率。:研究中使用了虚拟控制器技术,将神经网络的预测输出转化为游戏内车辆的控制信号,实现了数据到控制的直接映射。一、🤔研究的创新点具体体现在哪些方面?原创 2024-10-10 09:25:35 · 635 阅读 · 1 评论 -
学习笔记--DQN(Deep Q-Network)、Dueling DQN和Double DQN三种算法,它们各自具有不同的优势和局限性
在处理高维输入数据时,DQN、Dueling DQN和Double DQN各有优势和局限性。DQN是基础算法,适用于多种环境,但在高维数据上可能面临泛化和过估计问题。Dueling DQN通过更精细的价值估计提供了更好的泛化能力,但训练更复杂。Double DQN通过减少过估计提高了学习效率,但需要管理两个网络的同步。在实际应用中,选择哪种算法取决于具体任务的需求、数据的复杂性以及可用的计算资源。通常需要通过实验来确定哪种方法更适合特定的高维数据处理任务。原创 2024-09-04 09:11:13 · 837 阅读 · 0 评论 -
论文阅读--Behavior Proximal Policy Optimization
离线强化学习( RL )是一个具有挑战性的场景,现有的非策略行动者-评论家方法由于高估了分布外的状态-动作对而表现不佳。因此,提出了各种额外的增强来保持学习到的策略接近离线数据集(或行为政策)。在这项工作中,从分析离线单调策略改进出发,我们得到了一个令人惊讶的发现,一些在线在策略算法自然能够解决离线RL。具体来说,这些在策略算法固有的保守性正是离线RL方法需要克服高估的地方。原创 2023-12-13 12:37:33 · 1276 阅读 · 3 评论 -
论文阅读--Automated design of search algorithms based on reinforcement learning
然而,大多数现有的研究都集中在进化算子的自动设计上,忽略了进化和替换的选择启发式,更不用说考虑所有的设计决策。通过在进化启发式仅选择的设计空间上的学习,本部分研究了三种具有不同熵系数设置的ACE变体,即ACE _ FS,ACE _ NLAS和ACE _ LAS,分别采用固定/非线性/线性的熵系数调整方案。值得注意的是,在所选的R1类型实例中,唯一的差异在于客户时间窗密度,即R101和R102的客户时间窗比例分别为100 %和75 %,而R103和R104的客户时间窗比例分别为50 %和25 %。原创 2023-12-01 22:04:05 · 918 阅读 · 0 评论 -
论文阅读DIFFUSION POLICIES AS AN EXPRESSIVE POLICY CLASS FOR OFFLINE REINFORCEMENT LEARNING
Diffusion-QL有两个主要组成部分:使用扩散模型作为策略:通过将策略建立在条件扩散模型的逆向链上,扩散模型允许构建高度表达的策略类,同时其学习本身作为一种强大的策略正则化方法。Q-学习引导:通过联合学习的Q值函数,将Q-学习引导注入扩散策略的学习中。这使得在探索区域内的去噪采样向最优区域进行导向。原创 2023-11-29 19:54:27 · 1662 阅读 · 1 评论 -
论文阅读 Offline RL —【DT】Decision Transformer: Reinforcement Learning via Sequence Modeling
我们引入了一个将强化学习(RL)抽象为序列建模问题的框架。这使我们能够利用Transformer架构的简单性和可扩展性,以及GPT-x和BERT等语言建模的相关进步。特别是,我们提出了Decision Transformer,一种将RL问题转换为条件序列建模的架构。与先前拟合价值函数或计算策略梯度的RL方法不同,Decision Transformer通过利用因果掩码的Transformer简单地输出最优动作。通过对期望回报(奖励)、过去状态和动作的自回归模型进行调节,我们的Decision Transfo原创 2023-11-28 23:36:33 · 1233 阅读 · 2 评论