工业数据分析技术与实战之入门——昆仑数据田春华培训听课记录

昆仑数据田春华老师在微信公众号的专栏培训:工业数据分析与实战。培训给出了一些实际的数据分析例子,包括“设备管理”、“运作优化”和“营销服务”三类;然后讲了数据分析的基本框架、方法和技术;最后给出了大数据时代,数据分析的认识误区和挑战。田老师发音不标准啊,好多词听好几遍,再关联上下文,连猜带蒙的才勉强能明白,不过有的也不一定对。记录以反复学习。
在这里插入图片描述

视频链接

随着大数据越来越火,业界也产生了一种质疑:是不是大数据相当于一个算命,所有的问题都可以通过大数据来解决呢?今天,我们就这个话题进行一下概念澄清,也辅助我们工业界的从业者有一个更好的入门。
讲到大数据分析,我们过去也总结过,一个合格的数据分析师,应该具备什么技能,大概包括最基本的数学知识,包括统计学的一些知识,包括计算机,以及数据融合的一些知识点。说的更简单一点,就是我们所说的3T,3T也就是我们大家所说的OT、DT和IT。一个合格的数据分析师,我们过去一问,就是说只要懂算法,对算法了解比较深。到实际问题才发现,业务分析能力,其实对数据分析师要求还是很高的。第二呢,对于一些软件、工具,包括我们对应用开发、应用设计、UML、对我们的大数据平台的要求也是非常基本。我们这个课程,讲了DT里面的通用算法这一部分。通过这一部分的介绍,我们可以看到,其实所有的算法,其基本思想都是一样的,基本的路径都是一样的,采取一个好的方式,可能学起来比较简单,比较容易。大家也可能有一些困惑,到底应该怎么来了解这个数据分析呢?如果泛泛的讲,一下子就切入数据,大家可能感觉比较枯燥,先给大家举几个例子,来讨论一下在现实中,大家遇到的行业问题是什么。主要有设备管理、运作优化、营销服务。在这里面,数据分析怎么起的作用,包括这里面,为什么有的东西看起来,并没有我们想象的那么美好。这之后,我会把一些常见的数据分析技术做一下介绍,最后再讲一下在大数据时代,数据分析有什么不一样的地方,有什么特点。
此培训的核心信息也非常简单,第一个就是说,数据模型、大数据技术,包括深度学习,所有的模型,都有适用场景和前提条件,没有说任何一个模型,放之四海而皆准,除非它是伪科学,任何科学都是相对的。就像英文里说的“No free lunch“,没有免费的午餐,这里的意思就是你做了一些简化,取得了一些东西,也舍弃了一些东西,那就决定了我们的模型适用于什么,不适用于什么。再一个就是奥卡姆剃刀原理,在数学和工程中间,就像爱因斯坦说的,模型越简单越好,甚至再简单一步就会出错的情况,是最佳状态。也就是说,我们做实际的数据分析的时候,跟在高校做研究不一样,我们就希望用最简单的方式解决问题,不希望把事情搞复杂,搞的看起来高大上,实际上不解决实际问题。另外一个原则就是Garbage in, Garbage out。也就是说,如果数据本身不可靠,结果肯定不可靠。
另外,数据分析的组成要素,我们讲算法,讲深度学习,讲各种,其实在我们真正的数据分析项目中,算法恰恰是耗时最少的,一方面说明我们算法工作做的非常好,以至于已经形成规模化,造成我们不需要花太多时间去关注算法;第二,我们来看数据分析由四部分组成:数据加特征变量加算法加评估。算法是最通用,最成熟的一部分,只要我们掌握了基本的技巧,就可以解决很多问题。特别是在我们工业上,有好多问题有个很有意思的特点,八二原则,80%的问题非常好解,只有20%的问题才需要我们用深度学习,用高深的研究来做。其实工业界的工程人员,也可以解决很多很多有意思的问题,甚至这些问题的价值,在短期内,都比我们那20%的世界难题来的高。另外,就是说,虽然方法很多,常用的机器学习方法也有几十种到一百种左右。算法千变万化,但是核心思想基本不变:要不就是选一个合适的模型结构,要是线性模型不行,那就用一个非线性模型,如果全局不行,那我用局部线性行不行,不同的表达形式,可能适用于不同的条件。第二个是说,我们到底需要什么,我来改变目标函数,我是追求精度,还是追求强鲁棒性,这时候我们只要改变函数就可以。
这里我们也是跟管理者交流一个思想,数据分析好多时候,真正的立项包括项目管理中,我们很容易把它当成一个传统的信息化项目交付来看,就像一个交钥匙工程,就是签合同,到时候交活儿,就像装修完了交钥匙一样,非常标准。其实数据分析不是这样的,数据分析有一个很大的探索的味道在,就像我们科研,我们从数据中间,能不能得到我们想要的结论,这是要实事求是的。正因为存在这种不确定性,我们才要去做数据分析。如果这个结论都知道了,那数据分析就没有价值了。这也是数据分析的一个窘境,往往没有数据,或者数据本身很难的时候,才需要数据分析去解决,但是从另外一个方面,因为没有数据,数据很难,数据分析的成功率也就非常低。实事求是的讲,数据分析的真实的成功率,也就10%到20%左右。大部分也就是一个有意义的尝试。再就是,数据分析是一个技术,并不是所有数据分析的结论,都是有用的,有用这个东西,我们需要从业务角度,从市场角度来看。有用和挖掘出了比较可靠的结果,是两个方面。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值