一、项目背景
1.1 行业案例
在尽量不涉及公司业务数据和敏感信息的前提下,假设和抽象一个行业案例,对实践流程和方法论进行经验总结。常见的营销方式有很多,APP广告、短信、电话营销、网页广告、电视广告、KOL广告等。一般广告都是按CPA计费收入的。
GMV收入拆解
收入GMV = 成单量 * CPA(结算单价)
= 总曝光量 * 点击率 * 成单率 * CPA(结算单价)
= XX数 * XX率 * 成单率 * CPA(结算单价)
根据自己广告的营销场景和模式,来拆解GMV收入,确定影响收入的关键因素:比如曝光渠道、 坐席数、加微率、成单率、结算单价等。
因为我们是做数据和算法的,就需要明确这些关键因素中,数据算法可以发挥影响的目标指标:比如(1)扩大目标用户数 (2)提高用户加微率 ,分别对应挖掘更多潜在用户、挑选出更精准的用户。而对于曝光渠道的选择、广告位的购买,更多是运营来做预算的把控和投入。当然如果能给到更多的数据分析做判断支撑是更好的。
行业项目现状分析
收入GMV = 日均有效点击人数 * 平均转化率 5% * 用户人均成单量8单 * CPA定价
行业垂直领域 | 项目现状 | 项目目标 |
3-8岁儿童 | 运营现状: 日均点击数:7000 平均转化率: 5% 用户人均成单量:8单 CPA职场定价 : - | 保持转化率前提下,点击人数翻倍,提高收入。 使用扩量模型,挖掘更多用户,扩大运营人群规模和市场占有率。 |
6-18岁中小学生 | 运营现状: 日均点击数:300 平均转化率: <1% 用户人均成单量:1~2单 CPA职场定价 : - | 扭亏为盈,有稳定的客户群组,保证加微率3%,用户人均成单量4单,保证项目有钱赚能稳定运营。 所以,需要的是精准模型,先挖掘出精准的目标用户。 |
行业项目现状分析
二、目标达成情况(截至24年1月底)
从2023年12月开始测试,截止到2024年1月中旬,项目额外增加一倍人群,同时保证平均转化率4.6%,人均当天成单7单,一个月内毛利收入预计增加190%。
垂直领域 | GMV目标 | 2023年11月数据 | 2023年12月-2024年1月额外新增 | 目标收入增加 |
3-8岁 | 转化率 | 5% | 4.6% | 190% |
人均成单量 | 8单 | 7单 | ||
点击人数 | 7000人 | 13000人 |
三、项目实践方法
问题1: 目标人群在哪里? 怎么刻画?怎么找出来?
3.1 行业洞察分析
(1)种子人群/正负样本
首先要有可供分析的样本数据。目的用于用户、商品的显著特征挖掘。
正样本:已经转化的人群、什么时间转化的,用户量级1W以上最佳。由运营或业务方提供。
负样本: 外呼未转化人群,或随机用户,几百万或小千万级别。
(2)找出显著性画像特征(Top3-5个即可)
此步骤目的:找出目标用户的大概描述和方向,不求精准,能做到将10亿用户筛选为5亿、3亿、1亿就可以。
实现方法:
(1)分析法:根据odds、TGI、方差分析法等筛选画像标签
(2)模型法:使用分类模型根据gain信息增益、权重值等特征筛选方法
(3)根据上述方法对特征的排序,再结合业务背景进行人工解释和确认。
注意这里不是做画像分布分析!画像分析有点用但不多,而且给不出有用的画像标签。
例子:
例1: 使用了xgb分类模型对特征列按照gain做了排序。
最终选择的标签组合是 :
cpp_seni_haschild in ('高','较高')
and cpp_seni_childage >=3 and cpp_seni_childage <=14
and cgp_action_grpcate in ('母婴#母婴、玩具乐器','图书#图书、音像、数字商品','玩具乐器#母婴、玩具乐器', '文娱#图书、音像、数字商品', '数字内容#图书、音像、数字商品', '食品饮料#食品饮料、酒类、生鲜', '家用电器#家用电器', '生鲜#食品饮料、酒类、生鲜')
例2: 使用了xgb分类模型对特征列按照gain做了排序
使用正负样本odds比判断画像标签取值
最终选择标签组合:
cpp_base_age in ('36-45岁', '46-55岁', '26-35岁')
and cpp_base_education in (1, 2, 3, 4) --学历
and cgp_action_grpcate in ('图书#图书、音像、数字商品', '家用电器#家用电器', '运动户外#运动户外', '宠物生活#家具、家具、家装、厨具', '家装建材#家具、家具、家装、厨具', '食品饮料#食品饮料、酒类、生鲜', '电脑、办公#电脑、办公', '酒类#食品饮料、酒类、生鲜', '医疗保健#营养保健', '手机通讯#手机、数码', '家居日用#家具、家具、家装、厨具', '家具#家具、家具、家装、厨具', '珠宝首饰#服饰内衣、珠宝首饰', '厨具#家具、家具、家装、厨具', '数码#手机、数码', '美妆护肤#个护化妆', '汽车用品#汽车用品', '生鲜#食品饮料、酒类、生鲜', '玩具乐器#母婴、玩具乐器', '服饰内衣#服饰内衣、珠宝首饰', '本地生活/旅游出行#彩票、旅行、充值、票务')
(3)找出目标相关商品组
此步骤目的:用高相关商品组来召回潜在目标用户。根据项目扩量、精准的目标不同,将找出的商品组进行分层、分优先级处理,以便后续使用。
实现方法:
(1)分析法或算法:odds比、Jaccard相关性分析、Word2Vec Embedding + fassi相关性检索、购物篮分析法 等。
(2)商品组粒度选择: 类目、店铺、品牌、SPU 或SKU的粒度上,根据业务情况而定。
(3)对候选商品集按指标进行层次划分、或优先级排序,方便后续筛选使用。
例子:使用odds比对三级类目进行象限划分:
商品4象限理解:
第1象限的类目,覆盖正样本量级高、odds比也高,属于高精准的类目,可优先选择。闭眼用。
第2象限的类目,覆盖正样本量级小,但odds比高,属于能准确覆盖目标用户的商品,次优选。闭眼用。
第3象限的类目,覆盖正样本量级高,但odds低,即正负样本区分度不大,此部分商品人工挑着用。
第4象限的类目,覆盖正样本量级低、odds低,代表的是反向人群,这里商品不要用。
综上: 上述分析确定了目标群体的显著画像特征、相关商品群组,基本确定了人群挖掘方向。
思考:1、如何引入其他的商品召回策略,比如热门商品组,会怎样?
2、如果使用Embedding、购物篮分析法,会需要哪些数据准备?排序和分层解读又该如何做?
问题2: 有需求的人群怎么找?有多少?预期转化怎么样?
3.2 群组发现:确定基础客户池
此步骤目的:找出对目标商品组有兴趣或有需求的人群。
实现方法:
(1)确定基本行为: 有价值的行为,浏览、加购、购买、搜索等。
行为有正向、反向之分,是要用户做过还是没做过,必须要根据业务需求确认清楚。
行为和目标需求之间有转化强弱之分,一般行为关系由浅至深为:浏览->搜索->加购->购买。
(2)确定行为周期: 指定行为统计周期,不同的行业有不同的复购周期,不同的行为有不同的行为周期。
(3)确定行为深度: 统计周期内用户行为发生的频次、时长等,可以直接用数值,也可以用分层进行刻画。
(4)根据种子覆盖量、预估自然转化CVR,来选择合适的正反向行为和阈值区间。
(5)与前一步找出的画像标签叠加使用。
例子:
例1: 人群召回 = 3-8岁孩子家长标签 + 近三个月购买、加购 d1d2象限品牌和店铺用户。
brand_distict | action_type | 召回用户量 | 覆盖种子量 | 覆盖种子占比 | 预估自然转化CVR |
d1 | order | 5,724,004 | 5,690 | 8.45% | 0.099% |
d2 | order | 4,355,603 | 4,613 | 6.85% | 0.106% |
d1 | add_cart | 5,593,192 | 5,599 | 8.31% | 0.100% |
例2: 人群召回 = 使用d1d2象限三级类目,近2周内浏览或加购频次10次以上、搜索关键词频次2次以上,但没有发生购买的用户。
brand_distict | action_type | 召回用户量 | 覆盖种子量 | 覆盖种子占比 | 预估自然转化CVR |
d1d2 | 加购10次以上,搜索2次以上 | 4,945,328 | 5,560 | 16.55% | 0.1124% |
综上,候选客户池及量级基本确定了。一般会通过调整使用商品组分层、用户行为、行为深度阈值等,给出3-5个不同量级的候选客户池。
问题3: 人群准确吗?
回顾项目现状和目标分析:
A项目: 扩量模型, 期望扩量人群的加微率5%以上
B项目: 精准模型, 期望能找到加微率2%以上的目标客群。
3.4 目标人群定位:分层模型
此步骤目的:根据项目的目标需求和人群的定位来选择合适的排序或分层模型,如加微意向模型、购买意向模型、RFM分层模型等,对候选的客户池做进一步的分层排序。 同时,从中得出符合期望转化的人群组,得出分层阈值,这样在进入AB实验后更容易进行运营和分析。
分层实现方法:排序模型(加微意向、购买意向、接通意向等)Xgb、WideDeep等模型,分层模型RFM等
排序模型验收标准:
(1)分类模型AUC 达到可用阈值以上,模型具有区分性
(2)在一周真实拨打数据集上进行分层预测,满足转化单调性
例子:A项目加微意向模型
(1)模型AUC: 0.68,模型具有一定区分度。在测试数据集上,划分的20个分层转化率有单调性。
(2)在一周真实拨打数据集上验证,验证也具有转化排序性。
项目2023-11-24 ~ 2023-11-30期间拨打数据,模型预测分组及各分组加微率:
从此预测数据中得出的阈值是:如果要达到5%转化,选择排序在Top80%以上的人群。
解读出AB实验的建议是:Top50%人群组、 Top50%-80%人群组、 Top80%及以下人群组。
综上,通过排序模型,确认可能达到预期目标的人群组所在,也为接下来AB实验指出测试方向。
问题4: 人群实际表现好吗?
3.5 AB实验
此步骤目的:验证模型效果,根据真实的数据转化反馈,获得不同分层或Top等级的用户的转化认知,形成不同分层人群的运营策略经验。
实验方法:
(1)对照组: 一般为正在进行的运营策略组 或者模型分组
(2)实验组:上述模型挖掘的人群组
实验评价: 目标是否达成
例子:A项目加微率对比实验
测试后获得运营经验: (1)800W客户池 叠加母婴类目标签后,人群平均加微率4.1%-4.5%
(2)800W客户池 使用 排序模型,Top30% 平均加微率4.5% - 5.5%,Top30-50%平均加微率4.1% - 5%, Top50%-80%叠加母婴类目后平均加微4%-4.5%
问题排查和调整:
综上,通过AB实验获取目标分层人群的实际运营策略,形成认知经验。
问题5: 实现闭环了吗?
3.6 问题分析和数据回流
此步骤目的: 如果AB实验数据表现不好,如何做分析和调整? 能不能获取到实验数据来做分析,比拨打数据、加微数据、购买用户数据,数据是否实现了回流闭环?
调整方法:
(1)优先调整有效的运营规则,优先从可快速响应调整变化的规则、标签上下手
(2)从营销链路日志中分析问题
问题,如果数据表现不好怎么办?怎么调整?
四、实践流程总结
4.1 群体发现流程
上述展示的群体发现的过程是遵循数据挖掘的方法和框架的。
主要流程和框架:
4.2 工作提效: 模版化 + 自定义
(1)沉淀模型,形成基础模版。
以下模型、分析方法是可以沉淀成标准化输入输出模版的:
1、商品分析模型: 显著性分析、 相关性分析、odds比、Jaccard相关系数、 FP-Growth分析
2、画像标签筛选模型: 分类模型特征筛选法、方差筛选法...
3、人群分层模型: 排序模型、RFM分层模型、....
(2)自定义模型,灵活可扩展。
在有些业务场景下,上述分析方法会失效。为应对方法失效或分析不出有效结论的情况,同时也为适应不同业务的特性,需要进行方法自由探索和模型扩展,满足行业间的差异化,丰富已有模型和方法。
五、 推广应用
将案例应用到更多的品牌合作方上,将流程应用到更多不同的行业上,将方法扩宽到更细分的垂直领域上,形成更多的实践案例,产生更大的影响力。
思考:
1、为什么需要这样的一套流程下来? 这套流程和普通的召回排序有什么区别?
2、哪些环节的方法是会失效的?方法失效时如何处理?