DQN学习使用混合规则的柔性车间AGV实时调度（关注点：状态、奖励函数的设置）

最新推荐文章于 2024-01-24 10:38:44 发布

码丽莲梦露

最新推荐文章于 2024-01-24 10:38:44 发布

阅读量3k

点赞数 5

分类专栏： # 强化学习 # AGV调度优化论文阅读与实现文章标签：强化学习车间调度 AGV调度深度强化学习 DQN

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/crazy_girl_me/article/details/121756932

版权

论文阅读与实现同时被 3 个专栏收录

39 篇文章 102 订阅

订阅专栏

26 篇文章 43 订阅

订阅专栏

AGV调度优化

6 篇文章 8 订阅

订阅专栏

1 文章简介

本文原文可查阅文献：

Deep reinforcement learning based AGVs real-time scheduling with mixed rule for flexible shop floor in industry 4.0 - ScienceDirect

本文针对对象为柔性车间，提出了一种基于混合规则的自适应深度强化学习(DRL) AGV实时调度方法，以最小化完工时间和延迟率为目标。

2 状态设置

主要考虑任务状态和AGV状态，如下：

（1）任务数量 $N_{t}$ ，表示当前需要运输的任务总数。

（2）当前任务的平均剩余时间：

（3）当前任务的平均运行距离

（4）备选AGV的工作状态，用二进制数表示，空闲为0，不空闲为1.

（5）AGV的行驶速度。

3 奖励函数

设计奖励函数是为了评估行动和优化政策。本研究旨在降低agv实时调度的完工时间和延迟率。为了在同一维度上评价这两个指标，引入时间成本和延迟成本的概念如下:

$C_{ikd}$ :表示AGV i操作任务k的延迟成本； $C_{id}$ :AGV i 的总延迟成本; $C_{d}$ :整个调度的总延迟成本

$t_{ik}$ :任务k的运输时间； $t_{kr}$ :AGV i的总延迟时间

$C_{ikT}$ :AGV i执行任务k的时间成本； $C_{T}$ :总调度时间成本；T：makespan

随着上述成本的降低，调度绩效将得到改善。因此，根据延迟成本和时间成本定义奖励函数如下:

$R_{t}$ :用于评估单个任务的行动的当前奖励；

$R_{f}$ :用于评估调度的整体性能的最终奖励;

$c_{ad}/c_{aT}$ :单个任务的平均延迟成本和平均时间成本

$C_{ad}$ / $C_{aT}$ ：整个调度的平均延迟成本和平均时间成本

4 动作

5 体系结构

算法框架：

6 效果

码丽莲梦露

关注

5
点赞
踩
23

收藏

觉得还不错? 一键收藏
打赏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

码丽莲梦露 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。