【资源调度】6-20240908直播精彩QA-上

【资源调度】6-20240908直播精彩QA-

导读:本期是全网最全【资源调度】系列推文的直播QA分享。我们在2024.09.08开展了我们的第一次直播交流,本次直播由两部分组成,第一部分围绕该系列第四篇推文【客服调度问题仿真数据生成】,由董芊芊负责分享数据生成技术和假设检验方法;第二部分围绕运筹优化、机器学习落地经验以及读研深造、就业、职场经验等话题与粉丝展开交流,由张哲铭、向杜兵、董芊芊负责答疑。本篇文章主要是对第二部分QA的精华总结,由于内容较长,分两期推送,本期为第1篇。



作者1:组员(biubiu、高欣甜、黄世鸿、许佳鸣、薛博、董芊芊、潘美岑、潘瑜、李涵)
作者2:向杜兵,某制造业龙头算法专家
作者3:张哲铭,某互联网大厂算法专家


大家好!我们是IndustryOR团队,致力于分享业界落地的OR+AI技术。欢迎关注微信公众号/知乎/CSDN【运筹匠心】

邀请大家 【加入粉丝群】,群里经常分享硬核内容,且大佬多多,说不定你未来的leader就在其中!【加群方式附在文章结尾】~~

直播QA内容回顾将分为2期推文,以下是第一期内容:

1. Q:【运筹匠心】为什么要做数据生成这个事?

A:我们公众号主要分享运筹+AI技术在业界落地的经验,到目前为止,已分享了包括定价和选址方面的算法内容。本期讲的资源调度问题,是想分享工作中能用到的诸多落地方法,可以看到我们的大纲中涉及的算法特别多样,这些都是我们在六年多的工作生涯中积累的经验。

那么,在介绍各类算法之前,为了能够对算法进行迭代测试,我们需要在没有数据来源的情况下,生成模拟的数据集,在真实生产环境中不一定需要这步操作,因为数据可以通过线上系统直接采集获得。

因此,我们开发了一套基于小数据样本(来自网上公开的比赛数据),模拟生成大数据集的数据生成方法,其原则是生成的数据要尽可能地与原始数据相似。这就涉及到两个方面:一个是数据生成的方法,另一个是如何评估这两份数据的相似性。在这个过程中,需要运用到统计学中各种重要的检验方法,在工作中经常用到,所以决定开一期直播分享给大家。

2. Q:大家在学习的时候可能只关注运筹学建模和最优化理论等优化方向的只是,而今天直播提及的这么多假设检验方法,它在我们的工作中是特别重要吗?

A: 以一个优惠券发放的算法场景为例:假如有1000万的预算发给10万个客户,你需要决策的是:每个客户发什么类型的券,发多少面额的券?当新研发的发券算法上线后,你可能切了10%的流量。一方面,你需要观察优惠卷发放是否有效,即新算法上线之后一定时间内(如一个月)的这10%流量的指标变化。另一方面,你需要知道如果没有改变策略的话(即用老算法去发券,对照组也是10%的流量),指标如何变化。

如果在实验的一个月内指标波动的话,这个时候领导就会问你怎么证明,你的新算法效果比老算法的好。指标波动指的是:第一天新算法的指标可能会比第一天的老算法指标高,但是第二天,可能又比老算法低,处于来回波动的状态。这个时候就会涉及到假设检验这个事。统计和运筹是不分家的,这是我想强调的点,大家一定要好好学习统计学,尤其是假设检验这一块的知识在工作中非常重要

3. Q:在业界工作中,非统计背景出身的,对统计学相关知识了解到什么程度会比较好?

A:从我的经验来看,不仅仅是统计学,所有工作中所需要的知识,都要以解决问题为目标导向去学习,而不是一上来就大而全的学习整个理论体系,这样会特别耗时而且效率低。这里具体有两种情况,第一种是项目已具备一定的基础,你接手的是前人做过的项目,这个项目已经从0到1完成了体系构建,你只需要进行模块迭代。那么你首先需要做的是成体系的把这个项目的pipeline流程摸清,搞明白每个模块是干什么的,然后针对各个模块需要的知识点,你再去针对性地学习。第二种是全新项目,需要你从0到1地把项目做起来,这时候你就需要去参考一些业界的经验,并结合你的自身背景,目的是先快速地把它能从0到1建起来,用你会的方法先给它搭起来,再去补一些其他方面的知识,相当于还是需要去借鉴一些现成的资料,和你组内的专家、领导去讨论。这个时候的统计学就是你需要用到什么程度,就去学到什么程度。大厂团队里不会全是运筹优化专业的,肯定会有统计学出身的同学、同事,一定要和他们多交流。

4. Q:有哪些方法可以生成反事实的样本?

A:如果是我来理解这个问题的话,想生成反事实的样本,首先需要了解什么是反事实。例如刚才说到的发优惠券场景,一个人a买东西的时候,他用的券1。现在我需要知道人a不用券的时候,他下单的概率是多大?这种情况就是属于反事实的,因为人a已经用券1买东西了,这个事情已经发生了,人a不可能回到过去不用券买东西。这时候,你需要找到和人a购买偏好相似的用户,把这些人中不用券下单的人筛选出来作为样本去近似人a进行建模拟合,再用这个模型生成人a对应的反事实的样本。当然,这个模型肯定不是仅包含与人a购买偏好类似的样本,也不是仅仅只能生成人a的反事实样本,我们这里只是举例子说明。

5. Q:无分布假设这种情况我需要怎么做仿真?

A:在现实情况中,大部分问题的样本都是“无分布”的,因为你无法得知真实分布是怎样的。而且问题复杂程度特别高,不太可能完全拟合出来。例如现在的GPT,它学习我们人类自然语言表达的方式,是用一个黑盒给它建模出来的,本质上它解决的核心问题,就是你输入一长串话之后蹦出下一个字的概率。我觉得“无分布”假设在现实中是常见的、大量存在的,需要用黑盒的方法去拟合。

6. Q:关于优化问题,传统统计方法能够生成大量可行解,尤其是针对靠近最优解区域的问题。但如果业务规则复杂,这种方法是否仍然有效?

A:此处利用统计方法生成大量可行解,如果是基于现成的历史数据,理论上可以生成多种解决方案,但这些可行解很可能质量不高。以一个仓储选址问题为例:假定我们在一个居民区附近建立了一个小型仓库A,由于面积限制,每天只能存放约一二百种商品,但商品可能有数千乃至数万种。在没用算法前,我们通常依靠人工去选品备货,比如今天决定备200箱水、300箱香蕉,明天可能调整成40箱香蕉和300箱苹果,新增170箱葡萄等等。基于历史数据确实构成了多种可行解,因为它们在仓库容量允许范围内,但可能并非是最优的。因此,面对业务规则复杂的问题时,若训练数据集由统计方法生成的候选解构成(数据集质量不高),即使进一步采用基于learning的算法求解,也有很大可能无法取得特别好的效果,因为学习和历史数据质量就不高,上限摆在那里。需要采用一些learning结合OR的方法求得更高质量的解。

7. Q:我有一个关于仿真数据的基础问题。我是做金融风险评估的,现有的数据样本量较少,希望通过仿真方法基于该数据的分布生成更多相同分布的数据。在实际应用中,我们常希望利用历史数据预测未来情况,比如生成新数据的预测。但即使增加大量仿真数据,它们的分布依然与原始数据相同。这在预测或其他方面的好处何在?既然数据分布一致,包括验证在内的操作也只是证明新数据与原分布的一致性?

A: 在科研中,我们是希望保持数据分布的一致性的。但是在实际工程问题中,每次新增数据我们要把它看作原分布全集的一个子集,这样它的分布就会更接近真实场景,这也是为什么大数据和大算力能够显著提升大模型效果的原因。通过仿真虽然逼近被仿真数据的分布,但并不等同增加仿真数据也就能更接近实际分布,因为大概率你仿真的也是原分布的子集。你刚才说你是做金融风险评估中,我猜测你们大概率目前用的树模型,树模型在这种表格数据预测场景中表现出色,而且这个场景正样本量也不会太大,对于树模型来说的话,几万至几十万的样本量已经足够了,再增加样本量,模型效果也不一定提升多少,而且你的数据集质量也不一定质量很高。如果拥有庞大且准确数据集时,采用更复杂的模型(如Transformer)能显著提升效果。

8. Q:我是做地铁客流调度疏散策略研究的,例如应对突发情况时的客流疏散优先级。但目前面临的难题是缺乏实时地铁乘客数据来模拟实际情况?

A: 现在你有真实的数据吗?如果没有,那就无法进行仿真,因为仿真必须依赖真实的数据都叫仿真了,没有“真”怎么“仿”? 没有真实数据,只是凭空假设生成数据,这样的数据无法反映真实世界中的复杂性和多变性,忽略了许多细节和变量,即使使用再多的优化方法,结果不可能准确。即便让大模型生成数据,最后也需要判断仿真的客流是否和真实客流相近。如果不相近,再多的优化也没有意义。

在工程实践中,必须对仿真数据进行准确性校验,没有真实数据,落地工程是无法进行的。所以首先要解决数据来源的问题,找到真实的数据才能开展仿真工作。

9. Q:我们目前在制造业做一些补货的项目,我们接触到的业务场景中,工厂里面目前有专门的计划员做补货,他们在做补货计划时通常遵循实际的业务而展开,比如一些货需要在下个月要引流、大促,这些要多补,再比如用库存周转天数控制库存的水位等。业务部门觉得计划员这样的计算方式很好解释,而且容易干预,我们算法算出的结果不好解释,还不能方便干预,这就造成的业务部门对我们的不信任,导致算法很难落地。我想问一下这种情况下在算法落地方面您能提供一些经验借鉴吗?

A: 行,然后我聊一下我的看法。我也做过补货的项目,遇到的情况和你说的类似。补货算法在落地时有几个核心指标,最重要的是补货建议的采纳率,如果业务都不采纳,算法做的再厉害也没用;其次是像你提到的库存周转天数、缺货率等。补货算法的上游依赖的是销量预测算法,销量预测是否准确直接左右了补货算法能否落地。因此,我觉得,在技术方面我们首先应该尽可能的提升销量预测算法的准确性,分品类做精做细;其次,基于销量预测结果设计的补货公式不能太复杂,而且不能完全自动化,要能支持业务部门的干预需求。在协同方面,要尽可能的争取到你的leader或者大领导支持,帮你争取到更多的资源,从上向下推动可能效率更高,此外我们也需要一些推动技巧,比如:我们可以先选一些算法表现好的品类做试点,证明算法的有效性;其次,还可以采用我刚才提到的“设计补货公式时要充分考虑业务的干预需求”,这样做的好处是如果业务指标提升效果很高的话,这不单单是算法部门的功劳,也有业务部门的功劳,把业务部门绑在你的利益战车上,做好统一战线,请功时一起分享战果。这不单单是技术的问题,很大程度上是一个算法部门跟业务部门之间的协作与博弈的问题,要确保“权责利”尽可能统一到一起,让大家形成一个利益共同体,这样事情才能推动的快

10. Q:我正在攻读研究生,工业工程系,专业方向是生产运营系统的优化,包括供应链、不确定性等方面。现在有个运营岗位的实习机会,我可以去吗?

A:有几个建议可以给到你。第一点,想找算法岗位的同学,找实习的时候,不建议先找运营的工作,除非你找不到其他机会。你如果实习的时候找运营的工作,那么毕业的时候再找算法岗位可能会比较难。我遇到很多同学想做算法,抱着了解实际业务的想法去选择运营的实习岗。尤其是研二研三去找运营的工作,就业的时候大概率也是运营方面,再转技术岗位就比较难。

第二点,想了解实际运营的场景,可以多多关注我们公众号。我们会多开直播,和大家交流,因为我们在业界有很多年的经验。也可以多跟同学聊聊实习经验等,实习是了解实际场景的重要途径,先去大厂找一份实习工作,如果进不去就去小公司找一份实习。最好是去乙方实习,他们对接着不同的甲方,实习三到六个月就可能会对接三到四个甲方,从而短时间内就获得不同的经验。总之多交流,多尝试

小结

以上就是我们第一次直播(20240908)QA内容回顾的上半部分内容啦,敬请期待下半部分内容的推文~~

上篇(客服调度问题仿真数据生成:我们用一份真实数据模拟生成了大规模仿真数据,并检验了两份数据间的相似性,针对此过程中用到的生成手段、假设检验和可视化手段做了详细文字介绍,并开展了首场直播,直播由两部分组成,第一部分分享推文中的数据生成技术和假设检验方法;第二部分围绕运筹优化、机器学习落地经验以及读研深造、就业、职场经验等话题与粉丝展开交流。

本篇(直播QA精华总结-上):我们主要对直播分享的第二部分的QA进行了总结,由于内容较长,分两期推送,本期为上半部分。

下篇(直播QA精华总结-下):我们将分享的直播QA精华总结的下半部分。敬请期待~~~

最后,请大家多多点赞!!!转发!!!关注!!!大家的支持是我们持续创作的动力。我们是【运筹匠心】,咱们下期见~~~


06 加群方式

请添加管理员进群:IndustryOR

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值