深度强化学习与APS的一些感想

在这里插入图片描述

获取更多资讯,赶快关注上面的公众号吧!

最近过上了996的幸福生活,文章更新也落后了,但是还是一直在思考深度强化学习与APS之间的“恩怨情仇”,一些感想,记录一下。

1.目前为什么aps市场没有做大做强

答:市场很大,但是通用产品很难,每个车间每个工厂的需求都不同,生产模式因产品不同而不同,最主要是组织管理模式也都体现在生产过程中。aps首先是个s(系统),这个系统不仅是个软件系统,更是一个工厂,车间的业务管理系统,涉及到人机料法环测,所以单纯的想靠一些运筹学手段做优化就解决掉车间调度问题的道路是行不通,如果行得通那解决的问题就不是真正的aps,我已经见过太多公司尤其是很多创业公司,都在打着人工智能的旗号,号称可以怎么怎么样,这些人连可能连车间都没去过,刀具也没见过。言归正传,说了这么多,就是想表达aps涉及的是复杂的业务,通常前期需要进行深入的调研,然后针对需求个性化开发,整个实施周期比较长,自然成本也高,这是项目制显而易见的弊端。

当然我们也没必要这么悲观,前一二十年,我们做了很多信息化的基础工作,一方面,这些工作积累了大量的过程数据,这为aps奠定了良好的基于数据进行优化的基础,另一方面,随着信息化水平的提升,人的欲望也在提升,我们不再仅仅满足于管理数据,而是要充分利用数据,人的思维观念的改变才是aps市场打开的原始驱动力。

所以基于以上分析,通用化一定程度阻碍了一家独大,但是雨后春笋已然是事实,通过公众号咨询调度问题的企业,研究人员越来越多,创业公司也越来越多,这都是信号,所以时间拐点马上就要出现。但是值得注意的是,要想真正做强,目前来看一条可行的道路是,以项目制进入市场,过程中不断沉淀产品通用功能,打造原型系统,满足客户60%的需求,可以让用户快速体验产品,再根据试用过程中的问题进行调整和定制化,最终理想的效果就是形成的产品可以满足用户90%的需求,这样的产品才能规模化推广,快速占领市场。

2.深度强化学习在车间调度落地中有哪些问题需要解决

答:著名信息化专家某教授曾说过,工业没有和消费互联网那样的大数据,我很赞同这个说法,其实车间里的整个生产节拍并不是很快,产生的数据也有很大一部分是无法直接使用的,所以对于像强化学习这种训练效率不高的算法来说,这些数据量太少了,很难训练出一个有效的模型来适应复杂的场景。所以就需要花一定的时间来慢慢积累数据,或者建立车间数字孪生模型,通过模拟数据来训练强化学习代理,甚至可以期待,未来是不是会出现那种效率极高的深度强化学习算法或是别的算法,我想会有的。

另一个比较棘手的问题是,深度强化学习的问世之作是在游戏领域,要注意到,游戏的环境虽然也有随机因素,但是这个随机却是稳定的,训练得到的强化学习模型仍然可以很好地适应环境,而这一点在车间的调度环境中无法保证,因为随着订单的不同,人员的不同,甚至是管理制度的不同,都会导致车间每时每刻都在按照没有规律的规律在变化,哪怕原先已经得到了比较好的强化学习调度策略,也可能在车间的瞬时万变中失去光彩。我理解,可以有两种处理方式,当我们发现调度策略性能劣化(比如劣于启发式规则或其他标准)时,第一种就是完全重新训练,虽然可能花费较多的时间,但是通用性更强;第二种就是增量式训练,使得强化学习代理学习环境最近产生的经验,快速适应新的环境,效率提升,但可能会忘记以前的经验知识。

3.哪种算法在调度领域最有前景

答:按照没有免费的午餐定理,理论上不存在一种完美算法的,但目前看还是启发式算法最有应用前景,因为简单快速可解释,计划员可以理解为什么会有这样的调度结果,能理解就认为是正确的,可行的,在实际生产车间,可行性大于最优性。但是未来获取启发式的方式可能不再是人工定制化,而是学习出来高级的更具有自适应性的规则,而强化学习可以把大量时间用在离线训练,在线调度时可以达到又快又好的效果,所以深度强化学习仍然是最有潜力的调度算法,这也是我为什么博士期间选择使用强化学习求解车间调度的原因,并撰写了国内首篇系统性使用深度强化学习算法求解车间调度问题的博士论文

  • 5
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

松间沙路hba

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值