基于深度强化学习的智能车间调度方法研究

本文探讨了工业物联网背景下的智能车间调度问题,提出了基于深度强化学习(DRL)的车间调度算法。研究将车间调度问题定义为马尔可夫决策过程,建立了一个基于指针网络的模型,并通过DRL解决复杂状态空间和动作空间的调度挑战。实验结果显示,提出的算法在不同规模问题上表现出优越性能,尤其在中大规模问题上优于传统方法,证明了DRL在车间调度中的有效性。
摘要由CSDN通过智能技术生成

摘要:

工业物联网的空前繁荣为传统的工业生产制造模式开辟了一条新的道路。智能车间调度是整个生产过程实现全面控制和柔性生产的关键技术之一,要求以最大完工时间最小化分派多道工序和多台机器的生产调度。首先,将车间调度问题定义为马尔可夫决策过程,建立了一个基于指针网络的车间调度模型。其次,将作业调度过程看作是从一个序列到另一个序列的映射,提出了一种基于深度强化学习的车间调度算法。通过分析模型在不同参数设置下的收敛性,确定了最优参数。在不同规模的公共数据集和实际生产数据集上的实验结果表明,所提出的深度强化学习算法能够取得更好的性能。

关键词: 工业物联网 ; 智能车间调度 ; 柔性生产 ; 深度强化学习 ; 车间调度方法

0 引言

工业物联网(IIoT, industrial internet of things)作为新一代信息技术与制造业深度融合的产物,通过实现人、机、物的全面互联,为传统的工业生产制造模式开辟了一条新的道路。IIoT中设想的智能车间如图1所示,采用“云-边-端”3层架构,终端各种类型的传感设备综合感知实时生产数据,并通过无线传感器网络实时传输到边缘服务器,在边缘端使用云端训练好的车间调度模型结合订单、物料等系统,对等待生产的作业进行快速排产调度,然后将调度结果通过生产指令的方式下发到生产线执行,以实现整个生产过程的自动化、智能化、无人化。图1 中虚线表示从下层到上层(如端到边、边到云)

基于多动作深度强化学习的柔性车调度是指利用深度强化学习算法来解决车调度问题,并且考虑到车调度的灵活性。 在柔性车调度研究中,我们首先需要建立一个深度强化学习模型,这个模型可以使用Python代码来实现。我们可以使用强化学习库如TensorFlow或PyTorch来构建和训练深度强化学习模型。 在建立模型时,我们需要定义状态、动作和奖励。在柔性车调度中,状态可以包括车的当前状况如机器的忙闲状态、工件的等待时等。动作可以是指派工序给机器或者指派工件给机器。奖励可以根据车的效率和成本进行设计,例如,完成工件的时越短,奖励越高。 接下来,我们需要使用强化学习算法来训练模型。例如,可以使用深度 Q 学习算法(DQN)将车调度问题转化为一个马尔可夫决策过程,并通过反复迭代来优化模型的性能。 在实际运行中,我们可以使用训练好的模型来进行车调度。根据当前车的状态,模型可以根据当前的策略选择最优的动作,并根据之前的经验来调整策略。 总结而言,基于多动作深度强化学习的柔性车调度研究是利用深度强化学习算法来解决车调度问题,并且考虑到车调度的灵活性。我们可以使用Python代码来实现这个模型,并利用强化学习算法进行训练和优化。利用训练好的模型,我们可以在实际运行中进行车调度
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

罗思付之技术屋

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值