DQN学习使用混合规则的柔性车间AGV实时调度(关注点:状态、奖励函数的设置)

1 文章简介

本文原文可查阅文献:

Deep reinforcement learning based AGVs real-time scheduling with mixed rule for flexible shop floor in industry 4.0 - ScienceDirect

 本文针对对象为柔性车间,提出了一种基于混合规则的自适应深度强化学习(DRL) AGV实时调度方法,以最小化完工时间和延迟率为目标。

2 状态设置

        主要考虑任务状态和AGV状态,如下:

(1)任务数量N_{t},表示当前需要运输的任务总数。

(2)当前任务的平均剩余时间:

(3)当前任务的平均运行距离

(4)备选AGV的工作状态,用二进制数表示,空闲为0,不空闲为1.

(5)AGV的行驶速度。

3 奖励函数

        设计奖励函数是为了评估行动和优化政策。本研究旨在降低agv实时调度的完工时间和延迟率。为了在同一维度上评价这两个指标,引入时间成本和延迟成本的概念如下:

C_{ikd}:表示AGV i操作任务k的延迟成本;C_{id}:AGV i 的总延迟成本;C_{d}:整个调度的总延迟成本

t_{ik}:任务k的运输时间;t_{kr}:AGV i的总延迟时间

 C_{ikT}:AGV i执行任务k的时间成本;C_{T}:总调度时间成本;T:makespan

随着上述成本的降低,调度绩效将得到改善。因此,根据延迟成本和时间成本定义奖励函数如下:

 R_{t}:用于评估单个任务的行动的当前奖励;

R_{f}:用于评估调度的整体性能的最终奖励;

c_{ad}/c_{aT}:单个任务的平均延迟成本和平均时间成本

C_{ad}/C_{aT}:整个调度的平均延迟成本和平均时间成本

4 动作

 5 体系结构

算法框架:

 

6 效果 

 

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

码丽莲梦露

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值