《面向多目标柔性作业车间调度的强化学习NSGA-Ⅱ算法》
重庆大学学报/2021
1 多目标柔性作业车间调度模型
考虑的目标:
(1)最大王时间
(2)机器总负荷
(3)瓶颈机器负荷
2 算法设置
NSGA-Ⅱ过程:
首先对Pt执行选择、交叉、变异操作形成种群Qt,并将两个种群合并为种群Rt,然后对种群Rt进行非支配排序形成多个前列面Fi,并从高到底依次胶乳新一代种群Pt+1,当Fi加入使得种群超出规模大小时,依据拥挤度从大到小将个体加入新一代种群Pt+1。
2.1 双种群进化策略
在进化过程中,根据种群比例参数和性别判定法将种群拆分为两个种群,并对两个种群采用不同的遗传操作。采用性别判定法的拆分种群的流程如下:
对种群1:POX交叉和插入变异方式
对种群2:交叉变异方式,如下:
工序部分:
机器部分:
3 多样性度量
多目标问题中非劣解在近似Pareto前沿上分布的越均匀、越离散则表明多样性越好。常用的指标包括Sigma度量、解间距度量、网格度量、熵度量和个体空间度量等。单一评价指标会导致一定程度的偏差。因此考虑间距和熵度量两个指标对多样性进行度量,并结合强化学习动态控制种群比例参数,实现多目标柔性作业车间调度问题优化求解。
(1)解间距度量(Spaceing Metric)
其中
(2)熵度量(Entropy)
表示个体 i 落入第 i 个划分的概率, |𝑋𝑖 |表示第 i 个划分的个体数目,N 表示整个种群的规模。 种群多样性熵的计算公式为
4 基于强化学习的比例参数调整策略
(1)状态
状态空间由种群解间距值和熵值变化划分为9个,具体定义如表1:
(2)动作
强化学习Agent的动作是对种群比例参数的调整,包括增加、不变、减少三种。
式中,𝛽(𝑡)、𝛽(𝑡 − 1)分别为第 t 和 t-1 代种群的分割比例参数。
(3)奖励