工业数据分析技术与实战之运作优化——昆仑数据田春华培训听课记录

最新推荐文章于 2022-05-31 18:30:34 发布

影子飞扬

最新推荐文章于 2022-05-31 18:30:34 发布

阅读量416

点赞数

分类专栏：工业数据分析

本文链接：https://blog.csdn.net/fanyingkk/article/details/106943419

版权

工业数据分析专栏收录该内容

8 篇文章 3 订阅

订阅专栏

昆仑数据田春华老师在微信公众号的专栏培训：工业数据分析与实战。培训给出了一些实际的数据分析例子，包括“设备管理”、“运作优化”和“营销服务”三类；然后讲了数据分析的基本框架、方法和技术；最后给出了大数据时代，数据分析的认识误区和挑战。田老师发音不标准啊，好多词听好几遍，再关联上下文，连猜带蒙的才勉强能明白，不过有的也不一定对。记录以反复学习。
视频链接

————————————————
接上篇：
工业数据分析技术与实战之设备管理

上节课讲的与设备管理相关的例子，这节课将运作优化相关的例子。第一个例子先看一个集装箱码头的。集装箱码头就是一个货物中转的地方，船来了，船上的集装箱赶紧卸下来；要装船的集装箱能够尽快的装船运走，总之就是集装箱货物在码头待的时间越短越好，也就是吞吐量越大越好。这里面有个问题就是堆场优化，就是说需要往一艘船上装的箱子尽量摆在一起，船来了以后，不用跑好几个地方，就在一个地方把货物就装全了。一般码头的工作人员是三班倒，每个班8小时。一个班会来多少艘船，每艘船需要多少个集装箱。比如一艘船能拉20件，那分配位置的时候就把一片能放20件集装箱的位置分配给这艘船。这里的问题就是通过精确预测未来一天的装柜量，优化堆场运作。它的难点是要求的粒度比较细。如果遇到日期还没问题，遇到每个航线还没问题，关键还要分解到港，一个航线，可能中间跨五个港，不同港口的箱子，还是要分开装的，比如最远的港要装在最里面，最近的港要放在最外面最上面。甚至要看货柜类型，是20尺的箱子还是40尺的箱子，因为在码放的时候有安全要求，40尺的要在下面，20尺的要在上面，还有每个箱子的重量等级，在为船配重的时候，不同重量的箱子还是要分开的。在预测目的港和货柜类型的时候就很难了，因为一个班组好多时候都只来1件两件8件，10件，大多是10件之内，没有很多。这还不是最难的，更难的是比如港口不可能每天都风平浪静，有时候有大雾，需要封闭港口，台风，还有的时候是船延误了，还有的是船航线调整，有的停掉。在综合这些业务、环境、天气等等条件下，还能很好的预测，是最难的。比如说在台风前，一般会拼命的送箱子，在台风到来的时候就停了，台风过去后又一个反弹。包括一些是有的货主要求提前三周交箱子，有的货主要求晚交。这些因素造成我们做一个精度很高的模型非常难。我们的难点不在通用算法，而在于处理这些特殊情况。
第二个例子，讲一下航空装货的例子。这个问题会让大家自然的想到背包问题，也就是怎么装的越多越好。但其实业务上完全不是一回事儿，并不是装的越多越好能解决的。所以说在实际解决问题的时候，一些看起来是使用学术上经典算法能解决的，实际上业务目标是完全不一样的。这里面业务目标跟船一样，一个飞机停多个航段，装货的时候，首先远航程的货在里面，近航程的在外面，这样方便飞机停下以后卸货比较容易，第二就是尽量避免出错，把同一批货放到一起，不能为了装更多，更好的平衡，把同一批（同一个地点要装卸的）货物分散到多处，这样就很容易漏卸错卸；再就是考虑货的优先级，比如下一站要转机的，要放在最外面，飞机一停，就能立马转运到另一架飞机上，而在本地是目的地的货就可以晚一些卸。再一个问题就是，在这一站装货的时候，下一站的货、人其实是不能完全清楚的，这时如果再用运筹优化去解，是解不出来的，没有那么多数据。在这个项目里，用户有很有经验的配载员，他把自己过去多少年的配载经验，总结成规则，想用规则引擎的方式解决，一提数据分析，肯定会和专家系统，规则引擎结合到一起，是脱不了的。这几个用户很牛，他们画了大概200多页的visio图，用来描述他们配载经验总结出来的规则，然后就说能把这些规则实现出来，做成规则引擎，到时候用这个系统一跑，配载单就出来了，非常理想。系统只要实现把飞行计划抓过来，把航班信息、旅客信息、货物信息、天气信息抓过来，分别在飞机起飞前1小时、45分钟、30分钟做三次配载，完了如果现场再有什么问题，就做人工调整，然后再输入到系统里面，下一站再滚动。这样就完了，非常简单。但是实际做的时候发现，他们给出的专家规则，离计算机能执行的地步差的非常远。这200多页的规则，有漏的，有不严谨的，有死循环的，什么问题都有。需要再重新把他们的逻辑消化吸收重新画出来，变得更通用，但是也不敢保证是百分百对。这也是说，好多专家规则专家系统听起来容易，但是他们给的大多是不能直接用的，会存在各种问题。包括飞机上，实际情况远远要复杂的多，比如要运输遗体，那这就有很多讲究，就不能随便放，上面也不能压东西。假如有这种特殊情况，仓容马上就降下来了。而且还要保证飞机重心、配载平衡等。再就是要降低装货的错误率，错放一次，可能80%的由优化带来的时间就被浪费掉了。最后才是越多愈好。从这个例子我们可以看到，专家知识我们要尊重，但是他们给出的东西离计算机能够执行还差的很远，需要我们进一步梳理总结，做大量的工作才能实现。而且怎么验证所实现的规则是自洽的呢？我们这里采用了两种方法，一种是当改变了一条规则时，使用过去五年的数据跑一边，看看有没有问题，看看自动配载的单据，与一个有经验的配载员给出的配载单据有什么差别，然后找到这些差别的原因。这样也还是不能覆盖所有的情况，我们采用另一种方法，产生几千万个虚拟的航班配载需求，让计算机配，看有没有异常。通过这些验证才能保证一个复杂的专家规则，自动化运行两年三年的时间。这个也造成了一个看起来很好的专家系统，为什么到现实中间都举步维艰，一个专家规则到一个能自动运行的计算机系统，中间要补很多的课，要做很多的工作，这时候我们的数据分析，和专家知识，都非常的重要。
下面讲第三个例子，备件需求预测。比如我们好多企业在好多地方有服务处，服务处要准备各种配件。作为服务商来讲，希望能囤积一些配件来提高服务效率。但是对于制造商来说，这些囤积的配件就会造成成本积压。所以制造商希望知道各地服务商的销售量是多少。这个听起来比集装箱问题简单多了，它不需要做到单次，只要做到月就够了，或者一旬，一旬是多少，因为它的订货周期是两三周。这个看起来很简单，就是一个时间序列的预测，但是我们没想到的是，难度不来自于这些东西，而是好多事件在数据中没有反应，比如过去做的营销、促销，甚至有些特意囤货，比如年底囤货。这些信息都不在信息系统里面。比如某一年的12月29号30号31号三天的销量，是过去一个月销量的和，这明显就是年底为了冲业绩的囤货。这些信息可能在信息系统中没有体现，但是对我们的数据分析就是干扰，这个问题我们要通过数据的鲁棒性解决。但是鲁棒性太强又会带来另外一个问题，就是宏观经济。宏观经济的变化，比如房地产固定投入降低之后，会影响整个工程机械行业，这些的备件需求量就会降低。那这个提前量怎么搞，因为我们历史数据的反应都是滞后的，比如我们拿到统计局的GDP数据也是滞后的。这时候我们做预测，不管是做钢铁预测，各种预测，最大的问题就是提前性怎么搞，特别是宏观经济的提前性怎么搞。这个在工程机械里好的一点是我们当时有工况数据，一般我们预测的是易损件，易损件与它的开工强度开工量是有关的。如果我们知道每个地区的开工强度开工量的话，加进去就可以有一定的提前量。但是实际情况也非常有意思，不同的地区的提前量是不一样的，山东和广东是不一样的，包括节假日的影响。从这里看出，好多预测难的不是数据分析概念的正常情况下的预测，而是业务概念的正常情况的预测。业务正常情况下，数据会有好多干扰，比如促销、节日答谢客户、宏观经济变化，包括数据可能会升级，这都对数据分析造成干扰。但是这些都是数据分析师要做的一部分，我们不应该认为数据说明了一切，这也是我们经常讲，数据分析师应该相信数据，但不迷信数据的一个重要原因。

影子飞扬

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
工业数据分析技术与实战之运作优化——昆仑数据田春华培训听课记录

昆仑数据田春华老师在微信公众号的专栏培训：工业数据分析与实战。培训给出了一些实际的数据分析例子，包括“设备管理”、“运作优化”和“营销服务”三类；然后讲了数据分析的基本框架、方法和技术；最后给出了大数据时代，数据分析的认识误区和挑战。田老师发音不标准啊，好多词听好几遍，再关联上下文，连猜带蒙的才勉强能明白，不过有的也不一定对。记录以反复学习。视频链接：https://appgzdr0r6c3350.h5.xiaoeknow.com/v1/course/column/p_5e90181d2f5c2_Ut1
复制链接

扫一扫