这是傅一平的第335篇原创
【与数据同行】已开通综合、数据仓库、数据分析、产品经理、数据治理及机器学习六大专业群,加微信号frank61822702 为好友后入群。新开招聘交流群,请关注【与数据同行】公众号,后台回复“招聘”后获得入群方法。
正文开始
对于大多数DT从业者来讲,我们日常做的大多数工作都属于支撑类型,无论是报表、取数、营销等等,业务人员提一个需求,我们做一个。在进入大数据时代以后,技术上也许我们实现了突飞猛进,但生产关系其实并没有发生太大变化,你依旧是那个支撑者的角色。
互联网公司在大数据技术上对于传统企业的影响很大,但我们也许忽略了更为重要的东西,这个东西是什么呢?
数据建模非常强调快速迭代,而快速迭代的前提是要有好的闭环评估体系,比如AUC就是很好的评估指标,但当我们对外输送大量数据的同时,到底有多少获得了哪怕最简单的反馈和评估。
不到百分之一吧。
从基础模型、融合模型、挖掘模型再到标签,当我们盘点所谓的企业数据资产的时候,竟然不知道它们给企业创造了多大的价值,这是很可怕的事情,也许它们现在还配不上称为是资产。
没有任何评估的对外盲目推送数据,是数据比较原始的价值创造方式。
业务人员也许满意我们提供数据的方式,但并不代表就认可其价值,或者根本是无所谓。很多年前负责取数,曾经通过工单系统的分析发现取数结果文件中的15%竟然没有被打开过,这是谁的问题?
没有评估,就没有硬气的理由。
大数据对外直接变现是很霸气的,因为赚到的钱的数量就是对于数据价值最好的评估,不需要摆什么事实讲什么道理,或者用PPT来装饰门面,而数据服务企业内部,就完全不是那么回事。
很多人没有意识到这个问题,反正就是接需求呗;有些人意识到了这个问题,偶偶会抱怨一下,但也仅此而已;个别人看到了业务人员基于自己的取数结果创造的价值,觉得是岗位限制了发挥,因此投奔业务或者另谋高就;仅有极少部分的人会想到如何去改变现状。
互联网的大数据技术解决了传统企业的大数据处理的问题,而互联网的数据运营那套功夫,既拷贝不了也买不来,甚至看也看不到。比如笔者曾经找某互联网公司的人想看看他们的数据团队的组织架构体系,但被以企业秘密为由拒绝了。
回到自己,这些年我们做了很多数据模型,但每一次推广都显得有点艰难,迭代的速度太慢了,自己反思来反思去,还是觉得是数据的自动化闭环工作没有做好,我们跟外部系统并没有做到畅通的衔接,我们倒在了这关键一步。
为什么没有形成很好的衔接?
当然有各种理由,组织、机制或流程,但更为重要的是,我们有多大的勇气和技巧去拿回本该拿回的效果数据?
现在各类外围系统都打着开放数据的名头来要数据,我们疲于奔命的去实现这些需求,然后把这些数据推送出去,但为什么就没有及时、硬气的要求这些外围系统即刻返回结果呢,如果对面没有承诺,我们有多大的勇气去拒绝这些需求?
也许是身处下游身不由己,也许是做事的惰性使然,也许是技术上还有些障碍,更多的是没有数据运营的思维吧。
很简单的道理。
从我们手里出去的任何数据,只要无法带着效果回来,就不能说有多高的数据运营水平,偶偶的亮点、靠人力的大量投入获得的那点效果不能说明什么。
从这个点出发,我给出了衡量企业数据运营水平高低的5个级别,当然这只是一种看问题的角度。
第一层,你只对外推送数据
大多数的取数、报表、数据接口都是这种类型。
取数创造价值的大多方式,一种是让领导满意,一种是让营销满意。但取数却是最差的数据服务模式。业务人员给你格式要求,然后你把数据取给他,业务人员不会来跟你报喜,说基于你这个数据创造了什么价值,大多数时候你得到的反馈是关于数据本身的质疑。
数据接口是取数的自动化变种,大多也有去无回,很多死掉了你也不知道,只管杀不管埋不仅是数据管理的问题,更是价值创造的问题。
报表满足了企业的基本生产需求,而你评估这个数据价值的方式,也仅限于看看访问人数和点击率,但很难从报表的点击中分析到什么玄机,因为报表只是数据的呈现,是领导和业务人员做了从信息到知识的转换动作。
90%的数据从业者处于这个阶段。
第二层,你是个有心人,会问问别人家这个数据的用途
报表取数做到一定程度后,你也许已经不满足于简单的报表取数,你希望对于业务有更深入的理解,会追根究底的向业务人员了解报表取数的原因,以便为业务人员提供更好的数据解决方案,比如做些分析或者提供些挖掘模型,你甚至能获得一些效果的反馈。
在周报月报里你开始希望能更多的体现自己报表取数的价值,而不是简单的数量。以前你只会说完成了多少报表取数需求,现在你会说完成了市场部的XX重点业务数据分析需求,满足了市场部XX快速营销的需要,你开始有点运营的思维,但也仅此而已。
但即使这样做也已经超越了大多数的数据从业者,虽然还是处于数据运营的低级阶段。
第三层,你非常有心,开始有主动运营的意识,要求业务人员对于一些场景反馈给你具体效果
报表取数工作已经满足不了要求,你们开始有专门的组织和人员去从事数据分析和挖掘工作,公司对你的要求变成了服务好精确营销,精益管理等等,你们开始到一线去寻找需求,然后用项目化的方式去推进模型的建设和运营,希望证明你的数据有用。
为了服务好精确营销,你们的标签库,营销平台从0到1也起来了,在你们的工作汇报中,大量的模型开始充斥着PPT版面。
但你的星星之火并没有怎么燎原,虽然对外提供了大量的数据和模型,偶偶出现点亮点,但你并没有从提供数据中获得持续性的反馈,占据大多数的仍然是单向服务的报表和取数,你没有改变企业数据服务的基本面。
业务部门知道你能做一些高端的东西,但也仅此而已,没奢望你能基于数据创造什么规模化的价值。
你觉得已经尽力了,开始想着企业的文化、机制和流程是不能改变的,因此很是困惑,能做到这一层已经很不容易。
第四层,你建章立制,要求出去的数据必须回来,否则就不提供数据
很多人把业务数据化简单的理解为业务系统需要留存原始的数据并推送给大数据平台,但其实更深层次的含义是业务系统有义务和责任向大数据平台反馈任何其所需要的数据。
比如互联网的SDK采集数据可是直接侵入业务系统的,这是企业极度重视数据的体现,但有哪个传统企业的数据部门有这么大的权利?
数据中台和业务中台的关系,大家都说是双向的,但现实中很多时候是单向的,这在传统企业尤为明显。从这个角度讲,互联网公司的在线基因实在是太好了,其认为理所当然的东西,在你那里可能寸步难行。
但我们还是需要尝试去改变,具体到落地方式,我觉得至少要先要做两个事情:
1、制定模型数据开放标准
从数据申请、数据使用、到效果反馈,建立一套标准与规范,明确数据开放流程及数据使用方的要求,申请时需登记数据应用场景,必须按照接口规范反馈效果数据等等。
2、效果数据自动化采集
根据接口规范,数据使用方定期生成效果反馈数据,并通过自动化采集的模式实现渠道效果数据的汇聚,为数据运营与迭代优化提供基础。
现在大家都在提如何推进数据治理,我觉得这是一个好的切入点,考虑到你拥有的提供数据的能力和权利,再考虑到数据闭环道理上的制高点,我们似乎是可以有所期待的。
数据对于业务的赋能,一方面当然要强调全面开放,另一方面则要恪守一些原则,你需要为推送出去的数据价值创造负责,你能负责的唯一办法是让对方提供你所需要的评估的东西,没有底线的开放长远来讲损害企业的利益。
谁知道你推送出去的数据是不是垃圾?业务人员反应过来的时候往往会指责你的模型不给力,也许你还被缺席审判了,但甚至自己还不知道,这是很可笑的事情,数据不要成为了皇帝的新装。
现在企业数据中台建设的如火如荼,数据中台的核心是业务化、服务化、开放化,但我觉得还要加一个,就是闭环化。
数据中台当然需要开放,但为了数据中台的可持续发展,就要建章立制确保数据中台的数据有去有回,否则数据中台就会走向混乱,在越来越多人的质疑中被打回平台的原形。
第五层,你的数据不仅回来了,而且能够闭环迭代提升,形成真正的运营生态
这一层的意思大家都懂的,最近我又创造了一个词,叫做MLOps。
OLTP系统现在都在提DevOps,但OLAP其实更需要Ops,我把它叫做MLOps,从数据准备、模型迭代、模型发布、在线预测、到预测结果归集,每一个环节实现在线化、自动化,从而持续地改进模型的效果和质量,否则闭环迭代提升的生态是很难实现的。
最后,请问你觉得自己的企业处在数据运营的哪一层?
如果你问我,大概在3.5,先进的互联网大多在4以上了吧,其实道理早被别人说完了,但能践行的又有多少呢?
这篇文章来自于笔者最近关于数据运营的思考,其实跟DevOps有着异曲同工之妙,当你想要规模化、敏捷化的时候,自动化就成为了必需品,现在必须要去干这个事情。
“9·11”15年:致癌人数已超5400人,这个新闻靠谱吗?