Cohort Analysis,是时下互联网行业的新宠,在市场已不再为虚假繁荣的数据买账时,我们必须提供新的“有效数据”来说服市场。更常见的,这个分析方法会被用来分析:用户留存情况,以及用户粘性。所以,一定记住了,不是Coherent Analysis(粘性分析),而是Cohort Analysis——一撮人分析法。
虚假繁荣是什么?之前大家只关心流量、下载量、注册量,但就像花钱能买僵尸粉一样,刷出十多万粉丝却没有点赞的博主是孤单的,翻翻的下载量却没有真实用户的app是没钱赚的。所以投资人----当然这事管理层也关心,但因为信息不对称,所以投资人对真实情况的渴求程度更为迫切----需要知道在未来一段时间能带来真实效益的数据。Cohort Analysis提供一种更细致的分析方法,他将整体数据按不同的属性划分,分成Cohort,有共性的一撮User,然后根据这些“Cohort”的历史表现,来评估改版或促销的实际效果,或预测未来能带来的效益。比如,我们可以按照渠道、性别、收入、购买力等来划分Cohort。
以上为理论,如前所述,实际应用中,Cohort Analysis多用来分析用户留存情况,以及用户粘性。
我们看到每个月的新增用户都在刷刷的涨,但这种涨势可能是因为“首单免费”吸引来的。如果这些用户用过首单就不再回来了,那这些用户对公司来看,其实是无用的。这时就需要知道“有用的”客户有多少。
| 新增用户量 | 留存率 | |||||
1月 | 2月 | 3月 | 4月 | 5月 | 6月 | ||
1月 | 1000 | 100% | 50% | 30% | 20% | 10% | 5% |
2月 | 1200 | | 100% | 50% | 25% | 20% | 10% |
3月 | 1300 | | | 100% | 45% | 30% | 10% |
4月 | 1400 | | | | 100% | 45% | 25% |
5月 | 1500 | | | | | 100% | 55% |
当数据积累到一定程度,我们就能推断出新增的用户在未来留存的平均状态,以此来评估这种促销活动是否costeffective,或者用来评估总体老客户的保有量。
另外还可以用来作质量评估,比如对比上图是一个渠道的数据,而另一个渠道,第一月新增的用户,在第二个月仍活跃的不到20%,那么这个渠道相对就很差了。或者如果产品改版后的留存率降低,那么可能用户体验更差需要回滚了。这种用途主要是对现有状况的评估。
除了评估,市场最需要的是未来,基于现状对未来的合理预测是很重要的应用。
举个例子:
新增用户期间 | 新增用户 | 之后所处期间 | 留存人数 | 人均消费金额 |
00年 | 1000 | 01年 | 400 | 300 |
02年 | 100 | 250 | ||
03年 | 50 | 400 | ||
04年 | 20 | 500 | ||
01年 | 2000 | 02年 | 1000 | 300 |
03年 | 500 | 200 | ||
04年 | 150 | 500 | ||
02年 | 3500 | 03年 | 2000 | 500 |
04年 | 1500 | 450 |
表格说明:00年新增用户1000人,这1000人中,到01年还有400人为活跃用户,并且平均每人消费过3次。
以此累计足够多的数据,分析出用户群体中有多少是老客户,这些老客户的消费频次有多少;历史数据中新用户的表现一般怎样,第一年老客户、第二年老客户的购买频次,或消费金额为多少,从而推断今后,如05年,可能的销售收入。即:00年新增用户中5年老客户的人数*人均消费+01年新增用户中4年老客户的人数*人均消费+……
为了增强数据推断的准确性,实际应用中会进一步细化,如将新增的用户按性别、来源、年龄等分类;根据想要预测的结果确定留存人群的表现,如人均消费金额、消费次数等。
All in all,今日新知为Cohort Analysis,宏观上说是人群行为分析的一种,应用中特指留存分析、粘性分析,常用于互联网中,如电商、交易平台等。用于进行对现状的评估,和对未来情况的合理预测。
最后的最后,良心推荐 http://www.cohortanalysis.com/。关于definition、example和tools