强化学习FJSP静态关于奖励函数的尝试

最新推荐文章于 2024-03-30 10:11:08 发布

self.键盘上的钢琴师.LX

最新推荐文章于 2024-03-30 10:11:08 发布

阅读量717

点赞数 1

分类专栏：机器学习文章标签： python

本文链接：https://blog.csdn.net/lixiangohoh/article/details/125154483

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

本文探讨了在工序和机器调度中如何设计有效的动作规则，如加工最少/最多的剩余工件和均匀规则、SPT、LPT等。同时，通过分析不同奖励函数对收敛性和寻优能力的影响，提出了一种结合单步奖励和回合奖励的策略，并针对奖励函数进行了调整，以更好地反映makespan的趋势。尽管奖励函数已收敛，但发现它未能确保makespan的稳定性，因此提出了新的奖励函数形式以改善收敛趋势。

摘要由CSDN通过智能技术生成

动作设计：

在这里插入图片描述

工序层面的规则现在主要考虑的是：加工最少的剩余工件/加工最多的剩余工件，还有那些？
机器层面的规则：均匀规则，SPT, LPT，还有那些？
奖励

使用奖励函数为：

在这里插入图片描述

减少动作空间的结果：

在这里插入图片描述

说明动作空间需要取一个适当的值，太大不能收敛，太小不能组合到最优的值（影响其寻优能力）

奖励函数为：math.exp(states_next[0] - U_ave)

MK08

在这里插入图片描述

单步奖励与回合奖励相结合的方法进行：

def reward3(self, U_t, U_t_1, done,  makspan_t, eposide):
1.	        global r
2.	        self.makesban_t1 = makspan_t  # 这里只是每次进行保存当前的makespan
3.	        if done == True:
4.	            if eposide == 0:
5.	                r = -1
6.	                self.makesban_t1 = self.makspan_t_1
7.	            if eposide > 0:
8.	                if self.makesban_t1 > self.makspan_t_1:  # 如果当前的完工时间没有上一步的完工时间小， 则给一个惩罚，
9.	                    # 判断基准为上一个阶段的完工时间，奖励值初始状态设置为一个较大的值
10.	                    r = -2
11.	                    self.makesban_t1 = self.makspan_t_1
12.	                elif self.makesban_t1 == self.makspan_t_1:
13.	                    r = 1
14.	                else:
15.	                    r = 2  # 如果当前完工时间比上一个回合的完工时间小，则给一个奖励值，这时的判断基准为当前状态的奖励值
16.	        else:
17.	            r = math.exp((U_t_1 - U_t))
18.	 return r