数据分析进阶:如何利用机器学习做商业数据分析

数据分析,曾经是一个特定岗位,现在也可以说是一种通用能力。无论你业务岗,还是技术岗,都得会点儿。求职时,你会发现,什么职位都会要求你具备数据分析能力。而具备数据分析能力的你,可以在面试过程中自我展示,也会大幅增加你的职场竞争力。

机器学习,则是人工智能时代的另一种硬核能力。与数据分析相比,机器学习则似乎显得更加高大上一些,似乎需要更多的数学知识和技术编码能力,学起来有点令人望而生畏。

随便找一张机器学习的常用算法表就会是下面这样式儿的。

7f2ecaba457ad36b133982290bd17639.png

这么多的算法有点劝退,所以对于一般做数据分析的人来说,还不敢轻易入坑机器学习。

不过,以我在商业咨询公司和研究所里多年的项目经验来看,在大量的数据分析相关项目中,一定会有机器学习算法出场的,躲也躲不掉。而且,使用这些机器学习算法,其实也没有什么难度。毕竟,我们做项目只是把算法拿过来用,而不是从头开始设计实现算法。最关键的,仍然是你要知道什么算法,适合于什么样的数据分析项目。

下面我就用几个例子,告诉你如何把“机器学习算法”和“商业数据分析项目”捏合在一起。

例子1:用聚类算法给用户画像

先讲讲如何用一种无监督的机器学习算法给你的用户做用户画像。

用户画像(user profiling)简单来说是在数据分析和运营过程中,对用户的特征或者属性进行数据化的描述。在推广获客之前,先要做用户画像,了解用户。

bb5e583766b9752043bd0376f4a19ee5.png

了解用户的方式是搜集现有用户的资料,记录用户的每一次消费行为。用户数据的搜集有多 个维度,常见的维度包括静态属性(人口统计特征)、动态属性(消费行为特征)、心理属性等。

b84c20e67f6e982f15b43828df7e2174.png

而机器学习中的聚类算法,则特别适合把相似的数据给组织到一块去,因此也就特别适合用它来给用户分组、分群、分类。

用通俗的语言解释,聚类就是让机器把数据集中的样本按照特征分组,这个过程中没有标签存在,因此,它是一种无监督学习算法。而这种无监督学习算法,能在无人指导的情况下,根据数据(如 R 值、M 值、F 值)把用户分成几组。—— 这就是大名鼎鼎的RMF分析

R、F、M 的定义如下。

  • 最近一次消费(R,Recency):也叫新近度,代表自用户上次消费以来的天数;最近一次消费是非常有力的数据分析和预测指标。

  • 消费频率(F,Frequency):代表用户是否频繁使用服务,这也是用户黏性的风向标。

  • 消费金额(M,Monetary Value):用户在一段时间内消费的总金额,这个指标的重 要性不言而喻。

将 R、F、M 组合在一起,就可以勾画出一个用户的整体轮廓。

7e2e7f06fff4f5159144ed9702f43736.png

那么具体如何做呢?

第一步当然是收集与用户消费频率和消费金额相关的数据,并进行整理。

c4f6797365038cd4cccc3b8aa2e451a9.png

第二步,就是把整理好的数据对R、F和M分别做聚类。

d3e71c1b27428e53d7e1f2998accec6b.png

第三步,是根据聚类结果给出每一个用户的R、F和M层级的分值。

fb0398310a361f859a56eaa57610bd16.png

第四步,也就是最后一步,就是把R、F和M分值相加,就得到了每一个用户的价值分组了。

2819d551c7183e57b654bd3be3b99552.png

怎么样,是不是特别简单?

当然,因为篇幅所限,上面给出的只是核心步骤,如果你要知道全部的细节详情,可以参考黄佳老师的这本新书《数据分析咖哥十话》。

d1a039cc5fda775ed8decce25dd83c62.jpeg

例子2:用回归算法预测客户的生命周期价值

上面的聚类是一种无监督学习算法。也就是说,我们不需要给数据打任何标签,机器学习算法会直接根据数据给我们做聚类。而机器学习中,更常见的算法则是监督学习算法,意思是在已经有了标签的数据中拟合出一个函数,来预测未知的,没有标签的数据。

什么意思?举例来说更简单。

假如我运营一个视频号,10000个粉丝,那么我就知道这10000个粉丝的性别,年龄,爱好等等数据。这些就是他们的特征。那么我当然还知道他们给我多少打赏的金额。这个打赏的金额——就是标签。现在,来了一个新粉丝,尚且还不知道他未来会给我打赏多少,但是,他的性别,年龄,爱好等等数据,也已经知道了。这样,我就能够应用机器学习中的监督学习算法来预测她未来可能给我打赏的金额!

这就是用机器学习算法来预测客户的生命周期价值(LTV,Life-Time Value)的基本原理!

线性回归(linear regression),它通过线性函数对变量间的定量关系进行统计分析,如广告投入金额与新注册用户数就可能呈现线性关系。

b2083c0c544aea5cbaa752a8e4c84bdb.png

而对于客户生命周期价值来说,客户的R值,F值,M值越高,那么该客户的LTV,也就是生命周期价值也就会越高,这两者之间,也会呈现出明显的线性关系。此时,R值,F值,M值就是监督式机器学习的特征,而客户的LTV就是标签。

具体的项目实现步骤:

第一步,仍然是收集商业数据。

a3d8852eec25bc8b623a343578649571.png

第二步,是根据业务数据,整理出每一个用户的R值,F值,M值,以及LTV值。

a4121092ff0626178a7c5d913501eb11.png

第三步,是选定线性回归算法,确定机器学习模型。

5dba4bbad121697a9138af7c69432d33.png

第四步,是拟合机器学习模型,让他能够模拟从特征(R值,F值,M值)到标签(LTV值)的关系。

850b4d225b19aa90f1d64961613d5a72.png

第五步,也就是最后一步,就是用拟合好了的模型来预测LTV值了!

7e08f018913b2b0545db0f1eda59dac6.png

这也不难吧。

例子3:用分类算法来判断客户是否会流失

分类算法,也属于监督学习算法。在商业数据分析项目中,分类算法有大量的应用。比如说:银行的信用风险评估部门会预测一个客户是否会存在欺诈行为,这就是分类(把客户分成“正常”和“欺诈风险”两个类)。

类似的,也可以通过监督学习算法来预测客户是否会流失,而高流失风险的客户就要进行重点的客户关系管理。

3a20588b3609a0e4b30b3b5d750ecbde.png

要做一个判断客户是否会流失的项目,具体步骤如何呢?

第一步,还是首先收集数据。其中,前面用户的各种属性,是特征,而最后一个字段,“已停付会费”则正是我们要预测的标签。

fdf4ee13f3d0d81a95d6c55e2e4dbe3d.png

第二步,可以通过留存曲线来显示各个用户特征对于留存的影响。

427f905ba671ed4cc56ed34d06a27f4b.png

第三步,就是建立分类模型,这里我们选择逻辑回归模型,并根据数据拟合模型。

7de0255bc03e0bb775bf4dd07a7d16de.png

最后一步,用拟合好的模型来预测用户是否会流失。

8bfb2776babdef49474b7d13dd85de46.png

实际上,上面的内容,全部来自于埃森哲资深数据顾问黄佳的新书《数据分析咖哥十话 从思维到实践促进运营增长》。

f8a7d06951a312e4c734a6ed8a9663db.jpeg

下面是广告时间!

数据分析咖哥十话

这本书的写法,令人耳目一新,其实用性令数据分析师们击节赞叹,很多数据分析高手读后评论:

  • 读这本书时,有一种“抄作业”的轻松愉悦之感,读着真的舒服。

  • 如果早点读到黄老师的这本书,将减少当初多少摸索式学习的痛苦

这本书还有以下几个特点:

1. 立足实际

首先,这本书全书立足于数据分析项目实战。书中内容架构按照全局到具体来安排,保证你每一步都知道怎么走。基础先行,宏观掌握数据分析技能模块;深度实践,从头到尾感受业务全流程。

53c3101bd7a322fa407de1513f8e9d3f.png

2. 有趣又有料

这本书的设置是问题导向,用案例手把手带着你解决实际业务。举几个例子如下:

(1)对于不同的用户群体而言,同样的广告、推广文案或 者促销获客活动有可能产生完全不同的效果。那么推广这款海报好不好?通过数据分析可以更好地来确定哪一类人才是真正的买家。

29862340cd2af8d5385fcdfd330f657d.png

(2)在数据时代,流量是影响增长的重要因素。然而不计成本地获客,可能会因陷入营收困境而功亏一篑。因此,讨论如何获客时,不能忽略对用户价值的计算。清楚自己的用户值多少钱,才能更好地知道自己能赚多少钱。

8e84a7b0ab94be43d442ef47bd632742.png

(3)如何找到更好的促销渠道?如何量化各个渠道的具体价值?是否需要将多个促销渠道结合,才能获得更好的激活效果?我们将用马尔可夫链来解决这些问题。如何将转化结果归因于多个营销渠道显得越来越重要了。一项研究表明,首次访问零售商网站的消费者中有92%的人不在该网站购物。

5bfca30562e55e45e093d4b72b0a9630.png

(4)关键的营销时刻是用户真正开始使用产品,并且被产品所吸引的时刻。只有完成了一次从头到尾的产品体验之后,潜在用户才真正成为“使用者”。如果这次体验是令人满意且愉悦的,那么这个时刻就是我们所期望的“啊哈”时刻,也就是激活。激活的过程中哪个环节可能存在问题?需要数据的支持才能得出结论。

fe05558463cc7e00aaca660d0f665328.png

3. 培养数据思维

这本书中不仅有业务实战案例,还囊括了数据分析的重要方法,逻辑思维模型,以及AARRR框架。全书都是围绕着AARRR这个运营框架中的各个实战环节而展开的。

f0fe10e0b62c1cc490f50124518c8f5d.png

(1)数据分析方法概述

在实践过程中,数据分析师们总结出了许多具体的数据分析方法,了解这些方法的精髓,可将它们灵活应用于运营流程的各个阶段。

1. 用户画像:多维拆解用户信息

2. RFM分析:确定用户的核心价值

3. 波士顿矩阵:协助企业分配资源

4. SWOT分析:扬长补短,实现目标

5. 5W2H分析:从多角度提问,发散思维

6. KANO模型:对用户需求进行分类排序

7. 漏斗分析:显示关键转化节点

8. A/B 测试:对比不同方案

(2)逻辑分析方法

数据分析基本遵循提出问题→分析问题→提出假设→验证假设→ 输出结论这一过程,这个过程本身就需要多种逻辑思维方法的参与。因此,良好的逻辑思维能力对数据分析的作用不言而喻。

演绎推理就是从一般性原理出发 , 经过逻辑推理,从“已知”推知“未知”,以解释具体事件或者现象。

(3)AARRR 模型

本书以 AARRR 模型为框架,以咖哥和小雪为主人公,给出 10 个用数据指导运营实践的清晰案例。

b88516f5867b98cfd0d0b80f7dfe157e.png

4. 代码硬核且活泼

这本书的不仅仅关注于理论,思维,实战流程和方法。相关配套代码的质量也是顶流的暖心。

看出来了吧,为了让读者真正学懂数据分析,做会运营实战,作者可是真真正正下了功夫。从问题引入,到分析数据,到代码实现。这样一站式的服务,如果这样还学不会数据分析,那真是有点辜负了咖哥的一片苦心......

黄佳老师的上一本书《零基础学机器学习》,也是以咖哥为主人公,出版一年多以来,广受读者喜爱,已经是7次重印,豆瓣评分高达9.1分。作为一本入门书籍,实属佳作。而《数据分析咖哥十话》一书,沿袭了风趣、幽默、轻松的风格,写法上更上一层楼,把数据分析技术融入故事和实操当中,二者结合的更为巧妙。

c9c9e1609861f3b4ea9f23d5ab7077bd.jpeg

那么,这样一本数据分析和运营实战的精品书,正打折促销,值得您入手一本。

送书规则:

老规矩,还是免费送大家几本,给本文点赞、点在看以后,发送截图到微信,我会随机抽取3名每人免费送《数据分析咖哥十话》一本(截止时间到2022年9月7日21点)。

我的个人微信,给本文点赞、点在看以后,发送截图到下方微信:

2172b03db1c63cc685077ba74a77bb8e.png

感兴趣的同学,点击原文链接可直接购买! 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值