工业数据分析技术与实战之运作优化——昆仑数据田春华培训听课记录

昆仑数据田春华老师在微信公众号的专栏培训:工业数据分析与实战。培训给出了一些实际的数据分析例子,包括“设备管理”、“运作优化”和“营销服务”三类;然后讲了数据分析的基本框架、方法和技术;最后给出了大数据时代,数据分析的认识误区和挑战。田老师发音不标准啊,好多词听好几遍,再关联上下文,连猜带蒙的才勉强能明白,不过有的也不一定对。记录以反复学习。
视频链接

————————————————
接上篇:
工业数据分析技术与实战之设备管理

上节课讲的与设备管理相关的例子,这节课将运作优化相关的例子。第一个例子先看一个集装箱码头的。集装箱码头就是一个货物中转的地方,船来了,船上的集装箱赶紧卸下来;要装船的集装箱能够尽快的装船运走,总之就是集装箱货物在码头待的时间越短越好,也就是吞吐量越大越好。这里面有个问题就是堆场优化,就是说需要往一艘船上装的箱子尽量摆在一起,船来了以后,不用跑好几个地方,就在一个地方把货物就装全了。一般码头的工作人员是三班倒,每个班8小时。一个班会来多少艘船,每艘船需要多少个集装箱。比如一艘船能拉20件,那分配位置的时候就把一片能放20件集装箱的位置分配给这艘船。这里的问题就是通过精确预测未来一天的装柜量,优化堆场运作。它的难点是要求的粒度比较细。如果遇到日期还没问题,遇到每个航线还没问题,关键还要分解到港,一个航线,可能中间跨五个港,不同港口的箱子,还是要分开装的,比如最远的港要装在最里面,最近的港要放在最外面最上面。甚至要看货柜类型,是20尺的箱子还是40尺的箱子,因为在码放的时候有安全要求,40尺的要在下面,20尺的要在上面,还有每个箱子的重量等级,在为船配重的时候,不同重量的箱子还是要分开的。在预测目的港和货柜类型的时候就很难了,因为一个班组好多时候都只来1件两件8件,10件,大多是10件之内,没有很多。这还不是最难的,更难的是比如港口不可能每天都风平浪静,有时候有大雾,需要封闭港口,台风,还有的时候是船延误了,还有的是船航线调整,有的停掉。在综合这些业务、环境、天气等等条件下,还能很好的预测,是最难的。比如说在台风前,一般会拼命的送箱子,在台风到来的时候就停了,台风过去后又一个反弹。包括一些是有的货主要求提前三周交箱子,有的货主要求晚交。这些因素造成我们做一个精度很高的模型非常难。我们的难点不在通用算法,而在于处理这些特殊情况。
第二个例子,讲一下航空装货的例子。这个问题会让大家自然的想到背包问题,也就是怎么装的越多越好。但其实业务上完全不是一回事儿,并不是装的越多越好能解决的。所以说在实际解决问题的时候,一些看起来是使用学术上经典算法能解决的,实际上业务目标是完全不一样的。这里面业务目标跟船一样,一个飞机停多个航段,装货的时候,首先远航程的货在里面,近航程的在外面,这样方便飞机停下以后卸货比较容易,第二就是尽量避免出错,把同一批货放到一起,不能为了装更多,更好的平衡,把同一批(同一个地点要装卸的)货物分散到多处,这样就很容易漏卸错卸;再就是考虑货的优先级,比如下一站要转机的,要放在最外面,飞机一停,就能立马转运到另一架飞机上,而在本地是目的地的货就可以晚一些卸。再一个问题就是,在这一站装货的时候,下一站的货、人其实是不能完全清楚的,这时如果再用运筹优化去解,是解不出来的,没有那么多数据。在这个项目里,用户有很有经验的配载员,他把自己过去多少年的配载经验,总结成规则,想用规则引擎的方式解决,一提数据分析,肯定会和专家系统,规则引擎结合到一起,是脱不了的。这几个用户很牛,他们画了大概200多页的visio图,用来描述他们配载经验总结出来的规则,然后就说能把这些规则实现出来,做成规则引擎,到时候用这个系统一跑,配载单就出来了,非常理想。系统只要实现把飞行计划抓过来,把航班信息、旅客信息、货物信息、天气信息抓过来,分别在飞机起飞前1小时、45分钟、30分钟做三次配载,完了如果现场再有什么问题,就做人工调整,然后再输入到系统里面,下一站再滚动。这样就完了,非常简单。但是实际做的时候发现,他们给出的专家规则,离计算机能执行的地步差的非常远。这200多页的规则,有漏的,有不严谨的,有死循环的,什么问题都有。需要再重新把他们的逻辑消化吸收重新画出来,变得更通用,但是也不敢保证是百分百对。这也是说,好多专家规则专家系统听起来容易,但是他们给的大多是不能直接用的,会存在各种问题。包括飞机上,实际情况远远要复杂的多,比如要运输遗体,那这就有很多讲究,就不能随便放,上面也不能压东西。假如有这种特殊情况,仓容马上就降下来了。而且还要保证飞机重心、配载平衡等。再就是要降低装货的错误率,错放一次,可能80%的由优化带来的时间就被浪费掉了。最后才是越多愈好。从这个例子我们可以看到,专家知识我们要尊重,但是他们给出的东西离计算机能够执行还差的很远,需要我们进一步梳理总结,做大量的工作才能实现。而且怎么验证所实现的规则是自洽的呢?我们这里采用了两种方法,一种是当改变了一条规则时,使用过去五年的数据跑一边,看看有没有问题,看看自动配载的单据,与一个有经验的配载员给出的配载单据有什么差别,然后找到这些差别的原因。这样也还是不能覆盖所有的情况,我们采用另一种方法,产生几千万个虚拟的航班配载需求,让计算机配,看有没有异常。通过这些验证才能保证一个复杂的专家规则,自动化运行两年三年的时间。这个也造成了一个看起来很好的专家系统,为什么到现实中间都举步维艰,一个专家规则到一个能自动运行的计算机系统,中间要补很多的课,要做很多的工作,这时候我们的数据分析,和专家知识,都非常的重要。
下面讲第三个例子,备件需求预测。比如我们好多企业在好多地方有服务处,服务处要准备各种配件。作为服务商来讲,希望能囤积一些配件来提高服务效率。但是对于制造商来说,这些囤积的配件就会造成成本积压。所以制造商希望知道各地服务商的销售量是多少。这个听起来比集装箱问题简单多了,它不需要做到单次,只要做到月就够了,或者一旬,一旬是多少,因为它的订货周期是两三周。这个看起来很简单,就是一个时间序列的预测,但是我们没想到的是,难度不来自于这些东西,而是好多事件在数据中没有反应,比如过去做的营销、促销,甚至有些特意囤货,比如年底囤货。这些信息都不在信息系统里面。比如某一年的12月29号30号31号三天的销量,是过去一个月销量的和,这明显就是年底为了冲业绩的囤货。这些信息可能在信息系统中没有体现,但是对我们的数据分析就是干扰,这个问题我们要通过数据的鲁棒性解决。但是鲁棒性太强又会带来另外一个问题,就是宏观经济。宏观经济的变化,比如房地产固定投入降低之后,会影响整个工程机械行业,这些的备件需求量就会降低。那这个提前量怎么搞,因为我们历史数据的反应都是滞后的,比如我们拿到统计局的GDP数据也是滞后的。这时候我们做预测,不管是做钢铁预测,各种预测,最大的问题就是提前性怎么搞,特别是宏观经济的提前性怎么搞。这个在工程机械里好的一点是我们当时有工况数据,一般我们预测的是易损件,易损件与它的开工强度开工量是有关的。如果我们知道每个地区的开工强度开工量的话,加进去就可以有一定的提前量。但是实际情况也非常有意思,不同的地区的提前量是不一样的,山东和广东是不一样的,包括节假日的影响。从这里看出,好多预测难的不是数据分析概念的正常情况下的预测,而是业务概念的正常情况的预测。业务正常情况下,数据会有好多干扰,比如促销、节日答谢客户、宏观经济变化,包括数据可能会升级,这都对数据分析造成干扰。但是这些都是数据分析师要做的一部分,我们不应该认为数据说明了一切,这也是我们经常讲,数据分析师应该相信数据,但不迷信数据的一个重要原因。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值