Learning to Dispatch for Job Shop Scheduling via Deep Reinforcement Learning(使用GIN+PPO解决JSP问题)

本文介绍了如何利用深度强化学习中的GraphCNN和Actor-Critic模型解决工作车间调度(JSP)问题。文中详细阐述了数据格式、GNN公式、GraphCNN网络结构及前向传播过程,并展示了Actor-Critic网络结构,以求得最优调度策略。
摘要由CSDN通过智能技术生成

Learning to Dispatch for Job Shop Scheduling via Deep Reinforcement Learning (Zhang, 2020) 运用了深度强化学习的方式去为JSP问题寻找PDR(priority dispatching rule),模型通用性好,小size训练出的模型在大size的数据集上表现效果好。文章开放了源码,地址:https://github.com/zcajiayin/L2D。今天主要基于源码来分析一下Dispatching中graphembedding过程。

一. 输入数据格式

测试文件格式:每个npy文件里有10个例子。每个例子用一个二维list表示。List[0]表示运行时间。List[1]表示运行机器。

输入数据格式:变量名:Data    Type: array list    Data[0]: 运行时间集合   Data[1]: 运行机器集合

二. 文中的GNN公式

 

三.GraphCNN编码的输入输出

self.feature_extract = GraphCNN (num_layers=num_layers, # 3
                                num_mlp_layers=num_mlp_layers_feature_extract, # 2
                                input_dim=input_dim, # 2
                                hidden_dim=hidden_dim, # 64
                                learn_eps=learn_eps, # false
                                neighbor_pooling_type=neighbor_pooling_type, # sum
                                device=device).to(device)

表格 1 GRAPH CNN输入参数

变量名

Value

Type

说明

num_layers

3

GraphCNN输入参数

网络层数

num_mlp_layers

2

GraphCNN输入参数

MLP层数 K

input_dim

2

GraphCNN输入参数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值