工业数据分析技术与实战之营销服务——昆仑数据田春华培训听课记录

昆仑数据田春华老师在微信公众号的专栏培训:工业数据分析与实战。培训给出了一些实际的数据分析例子,包括“设备管理”、“运作优化”和“营销服务”三类;然后讲了数据分析的基本框架、方法和技术;最后给出了大数据时代,数据分析的认识误区和挑战。田老师发音不标准啊,好多词听好几遍,再关联上下文,连猜带蒙的才勉强能明白,不过有的也不一定对。记录以反复学习。
视频链接

————————————————
接上篇:
工业数据分析技术与实战之运作优化

这节课讲的可能大家接触比较多,用户画像,互联网上有很多这样的案例,这里从另外一个方面进行解释。这是早年参与的一个电信用户画像的例子。我们现在都觉着互联网上的数据最全,但是早年是电信部门的数据最全,但是碍于隐私碍于法律,电信不会做这些事情。你想想,你的手机,信号是跟某个基站支持的,根据基站信息情况,就能知道你在方圆几公里内活动,甚至知道你什么时间去了哪些地方。这些通过手机数据是都能够拿到的。另外还可以通过手机通话情况知道你朋友圈的信息,这远比互联网上盲搜的准确性高多了。另外其实手机消费信息里还能拿到你所有的消费情况数据,只是法律不允许供应商读取使用这些数据,还包括你从手机上浏览订阅哪些方面的消息,浏览量等等。其实电信供应商什么都能知道。这个例子是根据电信数据看你经常去哪些地方,是朝九晚五的上班族,还是送快递的天天跑,还是花天酒地天天逛夜店的。这是国外客户做的工作,我们国内现在法律还是不允许做这些分析。从这里我们可以看出来,数据维度的全,远远要比数据量大重要的多,知道你真正物理上的连接是什么,这在互联网行业大家也都意识到了,近几年通过各种数据交换数据手段来补全。
第二个介绍一个车联网的例子。这个客户有一个增值服务,第一年是免费的,但是到第二年他发现客户的续约率很低,他就想做一个营销,想确定一下哪些客户会订购这个服务。营销这个大家都知道,是不是豪车的会更不在乎这点儿钱,会续约,或者经常用的会续约。过去营销部门也自己做了一个模型,一个打分模型,首先根据是什么车型,什么档次的,第二根据过去的使用量,使用量高等等。后来发现营销效果并不好。他们就找到我们问有没有什么好的手段。我们就拿了他们一年的订阅数据简单做了一下。最早我们也单对车的价格做了分析,发现也是显著的,但是我们发现最显著的是时序行为,也就是对这个服务的使用行为,我们对使用行为进行了分类,是逐年上升,还是三分钟热度,买了新车用一阵,然后不用了,后来看快过期了,又用,这种V型的一种人群;还有一种是C字型的,一开始不太会用,或觉得没什么用,后来发现还挺好用的,再后来也没有想象的那么有用,就慢慢把它忘了。还有更复杂的。我们做了半天,发现V型的人绝对不要碰,他们就是占小便宜的,即使开豪车,营销对他们来说也没有任何价值。再就是看空间模型,看他们经常去哪些地方,是去CBD,还是哪里。所以说光看车的价格不能真正的反应出用户的消费习惯,反而看他们的使用行为更有效。
再一个例子是票房预测,现在因为疫情,票房都停了。正常情况下,一部电影上线时间也就一个月,好一点儿的再延长半月。所以一般首周的票房非常重要,首周的票房一般是整个票房的三分之一左右。所以在没上映的时候最关心的就是票房预测,这就会决定它排片的时候,到底排什么档期,什么厅,什么时间段。这些东西为什么重要呢?其实院线里面养着一批排片员,院线总部有排片指导,各个影院有自己的排片员。他们自己估票房估计的还不错,精度在50%左右,比如他说1个亿,不会超过5千万到1.5个亿,这样浮动还是挺大的,但是基本面的这些专业性都能抓住。总部的排片指导,他会天天看报纸,提前看影片,看各种评论,他对总票房的把握还是比较准的。但是各个院线的排片员的水平参差不齐,排片指导只是下一个大的指导意见,那么具体到这个影院,他的票房是多少,这特别依赖于排片员的经验。那他们就想问,能不能通过大数据,来预测头周票房,特别是前三天的票房。这个东西做呢,当时google发了一篇论文,通过google search,能够在北美票房预测中达到80%多的精度。那他们就也想,我们有百度,我们能不能根据百度的搜索数据预测票房。如果能预测准就太好了,百度搜索就能做,通过百度的搜索量,搜索热度,能反应电影的关注度。那我反过来问,抛开数据分析,抛开技术,你认为一个票房情况是由哪些因素造成的。那不外乎几个,影片的吸引度怎么样,观众的兴趣度是什么样的,再就是院线的环境是怎样的,不同院线的播放水平,院线周围居住人群都不同,再就是大的市场环境,比如疫情,春节档,国产电影节,甚至一些政治事件,都会影响到票房。我们先抛开数据分析,先梳理一下,看这个影片的吸引度,包括题材的吸引度,比如影片的类型,是喜剧还是悲剧,是小说改编的还是电视剧改编。话说回来,电视剧改编的票房一般都不好,小说改编的还可以。包括影片质量,影片质量怎么反应,一方面看导演,第二看演员,第三看投资,是不是大牌导演、演员,获过什么奖,奖项很重要;包括演员在社交媒体的吸引度怎么样,当时说为什么用社交媒体去做,就是因为这个演员怎么样,在社交媒体上是有所反应的,包括演员搭配怎样,比如刘德华和郑秀文,通常就比较搭,他们的票房就比较好。然后我们当时随便挖了一下,梁家辉和姓陈的导演,没有一个票房好的,大家开玩笑说这是命,其实就是一个巧合。这些东西,把他梳理出来,回头我们再看,都能够在社交媒体反应出来。那我们光看社交媒体,能做啥,我把导演演员的匹配度,把关注度,比如百度搜索,大众点评,官网点击量等都弄下来,加工出来,都试。我们期望是越简单越好,但是都没有想象的那么好。我们当年做的时候,王家卫的片子,因为他的影片都是文艺片,过去的票房都不是很好,那我们分析出来的模型也是一样,这个蓝色就是预估票房,都偏低,因为他的历史票房就是差,然后演员也带不起来,题材也带不起来,数据分析的时候更是这样,又不会去看片子怎么样,只能从历史数据情况来,但是一旦上映一天两天滚动预测的时候,很快就能跟上。但是其实也能看出,我们用数据分析的方法,使用历史预测未来,但是一旦历史预测不到未来,那预测值就会有很大偏差,这种情况下反而是人比较擅长,他们的发行看过影片后,都知道这个是个好电影,肯定要火,虽然王家卫过去的影片票房都不太好。这就是专家的一个分析,整理出来就可以看到,为了做这个分析,我需要票房数据,需要影院数据,需要影片数据,这些数据我需要从豆瓣去爬,需要去艺恩去拿,有的需要去百度,有的需要去官网等等,当然这些最后都是要做减法的,先用最少的数据去试一试精度行不行, 然后一点点的加,我们不会一下子都加进去。这里面我们能看到,有好多东西,比国外做的复杂很多,比如成都人喜欢恐怖片,上海人喜欢小资片,粤语片肯定在广东地区,哈尔滨就是抗战片,或者史泰龙的硬汉类型的片子。不同地区不一样,都可以通过数据挖出来。但是回到第一个问题,当时Google在北美只用一个搜索量就做了那么好的结果,为什么到了我们用了这么多数据还做的效果才好那么一点点?原因很简单,北美票房市场是一个非常稳定的市场,说白了你把去年数据复制一份放到今年,考虑一下档期,考虑一下导演演员的影响力,再乘以个经济增长量,基本上就是今年的票房了,用不用搜索量都是一样的。他讲是用的搜索,其实如果不用搜索,直接复制,都能达到70% 的精度,当然加上搜索量,能做到80%多,这样更好。但是国内市场不一样,好多院线都是成长期的,今年和去年不一样,整个的文艺产业也在一个发展的时机,这样如果通过搜索量去预测,可能会差很多。当然也有早年我们做的时候的一些不规范的现象,比如篡改搜索数据,买一些数据,包括票房的数据也有一些水分等等,这些都有,就造成我们在预测的时候不能简单的处理。
这几节课讲的三种类型设备管理、运作优化和营销服务各讲了三个例子,从这些例子可以看出,在实际做的过程中间,有好多问题看起来比较简单,做预测、做异常诊断,做分类,但是并不是把数据拿过来跑跑几个星期就能做出来的。实际的难点在每个里面都有各种异常情况,要不是样本问题,要不就是好多情况没有反应在数据之中,所以做的时候要特别的谨慎,因为我们数据分析师是解决一个实际问题,而不是像发一篇论文,研究一个算法,不对实际结果负责的时候,我们必须考虑现场的运营条件,运营体系,运行流程是什么样子,谁来用,用多久,做到60%是什么样子,做到90%对我意味着什么?包括我对数据的依赖度是什么样的,因为我对数据的获取是有成本的,要么通过数据交换,要么通过买数据,要不还得花成本去采集数据,而且这些数据还有时效性,比如五年前的数据今年还能不能用,这都是我们要反复反复思考的。这些东西,在我们数据分析教科书里都不会讲的,数据分析教科书都是假设数据是清洁的,假设数据是能反应实际情况的。但是实际情况下,很多东西并没有在数据中真实的反应,数据可能存在一些虚假的东西,那这时候就是我们数据分析师的责任,来分辨清楚。从这九个案例来看,其实在数据分析中间,算法是一块儿,问题是一块儿,整个的落地是第三块儿。就像我们刚开头讲的,OT、DT和IT,这三块儿都要考虑,这才是一个完整的数据分析项目。这种项目大家也可以看出,不可能存在一个交钥匙工程

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值