深度学习——day8 读论文(2022 硕士毕业论文)大规模车辆路径问题的深度强化学习算法研究

大规模车辆路径问题的深度强化学习算法研究

思维导图

点击下载原图
在这里插入图片描述

算法设计

预训练模型设计

Transformer模型设计

编码器
编码器原理图
第一层:扩维嵌入操作
第二层:线性回归扩维
第三层:注意力层,由两部分组成

1)多头注意力层(muti-head attention, MHA)
2)全连接的前反馈层(feed-forward layer)

KQV模型—注意力层机制最重要的组成部分:

Q(Query)到一系列键值对(Key, Value)上的映射函数

解码器
context—上下文:将有用的信息进行整合
① 上下文节点context (VRP问题在DRL用c表示):

(1)从 encoder传递到 decoder部分的;
(2)从上一次解码过程中得到的;
(3)截止到当前解码过程中当前车辆所剩余的运载能力D′
(4)上标(k)用来表示解码器的时间节点

② query 作为需要被访问的上一层向量,通过 进行初始计算:
③ 计算所有顾客节点的相关程度,进行mask操作。

相关度矩阵中的设置为-∞,用以抑制信息向下传递

④ 选择节点的概率矩阵的计算
⑤ 使用softmax计算最终输出的概率:

强化学习算法设计

Actor-Critic深度学习算法进行参数训练:

(1)Actor通过策略的梯度下降,在车辆路径问题中通过解码器编译出的概率选择动作 ;
(2)Critic作为 Actor的评估标准,这里使用 value-based的方式在 Critic上加入基线,随着模型的更新,会随时调整基线值的大小。

Actor-Critic算法在大规模车辆路径问题中的算法流程

针对大规模算例的深度强化学习算法改进策略

加入相对位置节点的Transformer的改进策略
强化学习的改进策略
A2C算法

算例及实验结果分析

算例生成与描述

车辆载重容量c和规模的关系为:

深度强化学习算法参数设置

通过大量实验,在保证 GPU内存的情况下 Batch_Size(批次数)与 Instance_Size(每轮批次下的算例个数)
上下两个周期模型变化小于 0.01%时,则满足训练终止条件;上图为训练完成与不同规模的算例所需要消耗的时间以及因为内存溢出中断的次数:
学习率η的设置:将输出误差反向传播给网络参数,以此来拟合样本的输出;本质是最优化的过程。

实验结果对比分析

与(元)启发式算法求解质量对比
各算法求解质量对比:由上表 可以看出,本文设计的深度强化学习算法在规模为 100、200、300和500的带容量限制的车辆路径问题中的求解质量均要优于与其同等运算速度下的启发式算法和元启发式算法
改进的深度强化学习收敛性对比
从上图可以观察到使用A2C框架后整体收敛优势优于AC模型但效果不是很明显;但是记录了全程100轮所耗训练时间,A2C框架为每轮训练节省11.6%的时间,证明了在大内存的GPU上使用A2C框架更有优势。

Advantage Actor-Critic(A2C)

解决VRP的算法

精确算法:

适用于小规模寻找最优解,求解质量高

1)分支定界
2)分支定价算法
3)拉格朗日松弛方法
4)Benders分解算法

启发式算法:

基于问题特征提出的策略和解决方案,短时间内按一定的经验准则不断迭代出一个满意解

1)节约算法
2)贪婪算法:在当前状态下做出最好的决策
3)插入算法
① 结合在不同算法里,作为优化环节的一部分出现
② 作为其他算法生成初始解的阶段使用,能够快速给出一个质量较好的初始解

元启发式算法:在求解过程中依据算法的策略规定,在一定条件下能够接受劣解,通过这种方式,能够跳出组合优化问题陷入局部最优的情况

1)禁忌搜索:过于依赖初始解的质量,往往和一些启发式算法一起使用
2)模拟退火算法:解决组合优化问题的范式
3)蚁群算法:通过信息素浓度的密集程度进行寻优

机器学习算法

1)基于深度强化学习的指针网络端到端算法
基于序列模型,通过训练网络模型参数,

强化网络对问题特征的提取,最后通过有监督训练或者无监督的强化学习训练进行在线
训练,训练完成后的模型参数加载至网络中再进行离线求解,如此便可获得最终解

2)基于深度强化学习的图神经网络端到端算法
3)基于深度强化学习的改进局部搜索算法
其本质上是一种超启发式算法,在启发式的众多策略之下,使用深度强化学习技术对每一次迭代使用哪种策略进行求解
不管你想做什么,你都要好好的从论文看,而不是单纯的调论文写代码!通过这些学习,你才能真正的对深度学习的发展,模型的优化,进经典的trick有深入的理解! 做算法,做科研必不可少!时间有限的人可以只看1.3 2.1 2.2 !(强烈推荐!) ## 1.3 ImageNet Evolution(Deep Learning broke out from here) **[4]** Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton. "**Imagenet classification with deep convolutional neural networks**." Advances in neural information processing systems. 2012. [[pdf]](http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf) **(AlexNet, Deep Learning Breakthrough)** :star::star::star::star::star: **[5]** Simonyan, Karen, and Andrew Zisserman. "**Very deep convolutional networks for large-scale image recognition**." arXiv preprint arXiv:1409.1556 (2014). [[pdf]](https://arxiv.org/pdf/1409.1556.pdf) **(VGGNet,Neural Networks become very deep!)** :star::star::star: **[6]** Szegedy, Christian, et al. "**Going deeper with convolutions**." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015. [[pdf]](http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Szegedy_Going_Deeper_With_2015_CVPR_paper.pdf) **(GoogLeNet)** :star::star::star: **[7]** He, Kaiming, et al. "**Deep residual learning for image recognition**." arXiv preprint arXiv:1512.03385 (2015). [[pdf]](https://arxiv.org/pdf/1512.03385.pdf) **(ResNet,Very very deep networks, CVPR best paper)** :star::star::star::star::star: #2 Deep Learning Method ## 2.1 Model **[14]** Hinton, Geoffrey E., et al. "**Improving neural networks by preventing co-adaptation of feature detectors**." arXiv preprint arXiv:1207.0580 (2012). [[pdf]](https://arxiv.org/pdf/1207.0580.pdf) **(Dropout)** :star::star::star: **[15]** Srivastava, Nitish, et al. "**Dropout: a simple way to prevent neural networks from overfitting**." Journal of Machine Learning Research 15.1 (2014): 1929-1958. [[pdf]](https://www.cs.toronto.edu/~hinton/absps/JMLRdropout.pdf) :star::star::star: **[16]** Ioffe, Sergey, and Christian Szegedy. "**Batch normalization: Accelerating deep network training by reducing internal covariate shift**." arXiv preprint arXiv:1502.03167 (2015). [[pdf]](http://arxiv.org/pdf/1502.03167) **(An outstanding Work in 2015)** :star::star::star::star: **[17]** Ba, Jimmy Lei, Jamie Ryan Kiros, and Geoffrey E. Hinton. "**Layer normalization**." arXiv preprint arXiv:1607.06450 (2016). [[pdf]](https://arxiv.org/pdf/1607.06450.pdf?utm_source=sciontist.com&utm_medium=refer&utm_campaign=promote) **(Update of Batch Normalization)** :star::star::star::star: **[18]** Courbariaux, Matthieu, et al. "**Binarized Neural Networks: Training Neural Networks with Weights and Activations Constrained to+ 1 or−1**." [[pdf]](https://pdfs.semanticscholar.org/f832/b16cb367802609d91d400085eb87d630212a.pdf) **(New Model,Fast)** :star::star::star: **[19]** Jaderberg, Max, et al. "**Decoupled neural interfaces using synthetic gradients**." arXiv preprint arXiv:1608.05343 (2016). [[pdf]](https://arxiv.org/pdf/1608.05343) **(Innovation of Training Method,Amazing Work)** :star::star::star::star::star: **[20]** Chen, Tianqi, Ian Goodfellow, and Jonathon Shlens. "Net2net: Accelerating learning via knowledge transfer." arXiv preprint arXiv:1511.05641 (2015). [[pdf]](https://arxiv.org/abs/1511.05641) **(Modify previously trained network to reduce training epochs)** :star::star::star: **[21]** Wei, Tao, et al. "Network Morphism." arXiv preprint arXiv:1603.01670 (2016). [[pdf]](https://arxiv.org/abs/1603.01670) **(Modify previously trained network to reduce training epochs)** :star::star::star: ## 2.2 Optimization **[22]** Sutskever, Ilya, et al. "**On the importance of initialization and momentum in deep learning**." ICML (3) 28 (2013): 1139-1147. [[pdf]](http://www.jmlr.org/proceedings/papers/v28/sutskever13.pdf) **(Momentum optimizer)** :star::star: **[23]** Kingma, Diederik, and Jimmy Ba. "**Adam: A method for stochastic optimization**." arXiv preprint arXiv:1412.6980 (2014). [[pdf]](http://arxiv.org/pdf/1412.6980) **(Maybe used most often currently)** :star::star::star: **[24]** Andrychowicz, Marcin, et al. "**Learning to learn by gradient descent by gradient descent**." arXiv preprint arXiv:1606.04474 (2016). [[pdf]](https://arxiv.org/pdf/1606.04474) **(Neural Optimizer,Amazing Work)** :star::star::star::star::star: **[25]** Han, Song, Huizi Mao, and William J. Dally. "**Deep compression: Compressing deep neural network with pruning, trained quantization and huffman coding**." CoRR, abs/1510.00149 2 (2015). [[pdf]](https://pdfs.semanticscholar.org/5b6c/9dda1d88095fa4aac1507348e498a1f2e863.pdf) **(ICLR best paper, new direction to make NN running fast,DeePhi Tech Startup)** :star::star::star::star::star: **[26]** Iandola, Forrest N., et al. "**SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and< 1MB model size**." arXiv preprint arXiv:1602.07360 (2016). [[pdf]](http://arxiv.org/pdf/1602.07360) **(Also a new direction to optimize NN,DeePhi Tech Startup)** :star::star::star::star:
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值