强化学习在智能补货场景的应用

本文作者:应如是,观远算法团队工程师,毕业于伦敦帝国理工学院计算机系,主要研究方向为强化学习、时间序列算法及其落地应用。深耕零售消费品场景,解决供应链运筹优化问题。为客户提供基于机器学习的AI解决方案。

1. 背景

伴随大数据、人工智能、云计算等前沿技术的飞速发展,零售消费行业从制造、采购、销售到服务环节呈现数字化、智能化的特点。

本文以供应链全景方案中的智能补货场景为例。为你揭秘观远 AI 解决方案如何赋能企业智能补货。

智能补货能避免漏订错订商品,有效控制库存周转率、降低缺货率、减轻人工负担、提升订货效率。

现有智能补货方案主要分为端到端架构多步骤架构

端到端架构如深度神经网络模型、端到端运筹优化模型等。多步骤架构通常包含销量预测模型补货模型两部分。端到端深度神经网络模型对于数据量的依赖已然是当前 AI 应用落地的最大障碍之一。多步骤架构由于多个模型之间误差的叠加放大,导致最终结果并不理想。

机器学习的商业落地需要考虑众多因素,如模型稳定性、模型复杂度、决策可解释性等。现行技术方案对于输入数据依赖度较高,模型稳定性低、泛化能力弱。增加了商业落地难度,业务场景拓展能力有限。

本文将分析智能补货场景的技术难点,并阐述观远 AI 方案如何基于模仿学习与逆强化学习,采用少样本模型框架优化现有技术方案。

观远 AI 方案秉承“让业务用起来”的宗旨,相信智能补货旨在减轻人工负担、增强人工决策能力而非替代人工,尤其在后疫情时代,人工决策对突发信息的及时处理不可替代,当今商业世界需要人机协同共筑高质量决策。

2. 技术难点

本文从模型稳定性、模型复杂度、决策可解释性分析智能补货场景的技术方案难点。

2.1. 模型稳定性(Model Stability)

模型稳定性可以从模型输入、输出两个角度分析:

  • 从输入角度分析,模型稳定性由模型对数据依赖程度决定。

  • 从输出角度分析,表现为模型泛化能力的强弱。

2.1.1. 数据依赖(Data Reliability)

数据依赖又可以细分为数据质量依赖和数据体量依赖:

  • 数据质量依赖(Data Quality Reliability)

指数据准确性、完整性、时效性、关联性、一致性、可靠性、合理表示、可以访问等。

  • 数据体量依赖(Data Volume Reliability)

指支持模型训练达到收敛所需要的数据量大小。

深度神经网络模型需要海量训练数据,即数据体量要求大。同时该模型对数据质量要求也高。诚如机器学习名言 “Garbage in Garbage out”所说,模型当遇到“漂移问题”时,适应能力弱,表现效果必然不好。

漂移问题一般可以分为以下两类:

  • 数据漂移(Data Drift)

指当输入数据分布发生变化。因此,历史训练的模型难以在这些新数据上取得良好表现。

  • 概念漂移(Concept Drift)

指当模型学习的模式不再成立,发生变化;

与数据漂移相反,输入数据的分布保持不变。相反,模型输入和输出之间的关系会发生变化。

当出现数据漂移或概念漂移的时候,模型的输入数据分布发生变化或模型学习的模式不再成立。一个典型案例就是 Covid-19 疫情。

2020 年,Covid-19 疫情席卷全球,几乎一夜之间,人们的出行方式、餐饮习惯、供应链备货等发生翻天覆地的变化。这种变化既包含数据分布的变化(Data Drift),例如网购导致线上订单暴增,线下订单骤减;也包含概念漂移(Concept Drift),例如疫情期间,国际旅游等业务受到重击,但随着情况好转,可能旧概念又会恢复(Reoccurring Concepts)。

上述变化会影响所有模型,不论这类模型以前是否以稳定性高著称,当发生突然漂移(Sudden Drift)时,模型未来的效果无法获得任何保证。

在智能补货场景中,一方面数据质量堪忧,面临库存、报废、到货信息不准确,商品信息维护延迟等问题。另一方面饱受“漂移问题”困扰,在后疫情时代,数据分布、内在模式发生剧烈变化,由于现有技术架构对数据质量和数据体量的高度依赖,模型的调整周期长,效果改善有限,难以满足当今变幻莫测的商业需求。

2.1.2. 模型泛化能力(Model Generalization)

上文从模型数据来源分析了模型稳定性,下面从模型泛化能力分析模型稳定性。

机器学习模型的泛化场景分为两大类:

  • 弱泛化

训练数据与测试数据来自于同一个分布;也叫内插(interpolation)或 鲁棒性(robustness)。

  • 强泛化

训练数据与测试数据来自不同的分布;也叫外推(extrapolation)或 理解(understanding)。

“弱泛化” 通常假设训练集数据和测试集数据分布相同。但在实际问题中, 即使是“大样本”(large sample limit)情况下, 二者分布也总会有差异。在智能补货场景中,门店业务更新,周边客流变化,区域受疫情临时影响,都会导致训练模型的数据和测试模型的数据不满足独立同分布条件。在该种情况下,不论是基于大量历史数据训练的端到端神经网络模型,还是多步骤运筹架构,都面临数据漂移问题,削弱模型泛化能力。

在“强泛化”范畴,模型在完全不同数据分布上进行评估。强化学习旨在解决这种变化场景中的模型泛化性。当智能学习系统对世界的理解越多,它就更容易获得学习的信号,做决策所需的样本就越少。这也是为什么说少样本学习(few shot learning)、模仿学习(imitation learning)、学习如何学习(learning to learn)重要的原因了:它们将使我们摆脱采用方差大而有用信息少的暴力求解方式。

现有技术方案采用独立同分布假设,导致其“弱泛化”效果不佳。同时,现有技术方案遇到不同数据分布时,“强泛化”能力也亟待提高。

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值