构造性神经组合优化的学习编码需要反悔


Abstract

深度强化学习的神经组合优化中,学习构造性启发式(LCH)通过快速的自回归解构建过程实现高质量的解决方案。

然而,这些基于LCH的方法在收敛性方面存在不足,与最优解仍存在性能差距。直观地说,在构建过程中学习对某些步骤反悔有助于提高训练效率和网络表示。本文提出了基于反悔的新颖机制,用于改进构建过程。

该方法可以作为插件用于任何现有基于LCH的DRL-NCO方法。

1 Introduction

LCH 方法具有更快的推理速度,并在泛化能力方面表现出优势(Ma 等人,2021;Liu 等人,2023)。当前基于 LCH 的 DRL - NCO 方法的网络架构,如注意力模型(AM)(Kool,van Hoof 和 Welling,2019)、Pointerformer(Jin 等人,2023)和 POMO(Kwon 等人,2020),采用了轻量级解码器和具有大量参数的重编

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

太极生两鱼

要天天开心哦!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值