营销目标人群挖掘实践经验总结

Just Jump

已于 2024-02-27 17:40:13 修改

阅读量1.4k

点赞数 23

分类专栏：推荐系统算法模型分析方法文章标签：数据挖掘人群挖掘

于 2024-02-27 17:35:25 首次发布

本文链接：https://blog.csdn.net/eylier/article/details/136325170

版权

推荐系统同时被 2 个专栏收录

38 篇文章

订阅专栏

算法模型分析方法

23 篇文章

订阅专栏

一、项目背景

1.1 行业案例

在尽量不涉及公司业务数据和敏感信息的前提下，假设和抽象一个行业案例，对实践流程和方法论进行经验总结。常见的营销方式有很多，APP广告、短信、电话营销、网页广告、电视广告、KOL广告等。一般广告都是按CPA计费收入的。

GMV收入拆解

收入GMV = 成单量 * CPA（结算单价）

= 总曝光量 * 点击率 * 成单率 * CPA（结算单价）

= XX数 * XX率 * 成单率 * CPA（结算单价）

根据自己广告的营销场景和模式，来拆解GMV收入，确定影响收入的关键因素：比如曝光渠道、坐席数、加微率、成单率、结算单价等。

因为我们是做数据和算法的，就需要明确这些关键因素中，数据算法可以发挥影响的目标指标：比如（1）扩大目标用户数（2）提高用户加微率，分别对应挖掘更多潜在用户、挑选出更精准的用户。而对于曝光渠道的选择、广告位的购买，更多是运营来做预算的把控和投入。当然如果能给到更多的数据分析做判断支撑是更好的。

行业项目现状分析

收入GMV = 日均有效点击人数 * 平均转化率 5% * 用户人均成单量8单 * CPA定价

行业垂直领域

项目现状

项目目标

3-8岁儿童

运营现状：

日均点击数：7000

平均转化率： 5%

用户人均成单量：8单

CPA职场定价： -

保持转化率前提下，点击人数翻倍，提高收入。

使用扩量模型，挖掘更多用户，扩大运营人群规模和市场占有率。

6-18岁中小学生

运营现状：

日均点击数：300

平均转化率： <1%

用户人均成单量：1～2单

CPA职场定价： -

扭亏为盈，有稳定的客户群组，保证加微率3%，用户人均成单量4单，保证项目有钱赚能稳定运营。

所以，需要的是精准模型，先挖掘出精准的目标用户。

行业项目现状分析

二、目标达成情况（截至24年1月底）

从2023年12月开始测试，截止到2024年1月中旬，项目额外增加一倍人群，同时保证平均转化率4.6%，人均当天成单7单，一个月内毛利收入预计增加190%。

垂直领域	GMV目标	2023年11月数据	2023年12月-2024年1月额外新增	目标收入增加
3-8岁	转化率	5%	4.6%	190%
	人均成单量	8单	7单
	点击人数	7000人	13000人

三、项目实践方法

问题1: 目标人群在哪里？怎么刻画？怎么找出来？

3.1 行业洞察分析

（1）种子人群/正负样本

首先要有可供分析的样本数据。目的用于用户、商品的显著特征挖掘。

正样本：已经转化的人群、什么时间转化的，用户量级1W以上最佳。由运营或业务方提供。

负样本：外呼未转化人群，或随机用户，几百万或小千万级别。

（2）找出显著性画像特征（Top3-5个即可）

此步骤目的：找出目标用户的大概描述和方向，不求精准，能做到将10亿用户筛选为5亿、3亿、1亿就可以。

实现方法：

（1）分析法：根据odds、TGI、方差分析法等筛选画像标签

（2）模型法：使用分类模型根据gain信息增益、权重值等特征筛选方法

（3）根据上述方法对特征的排序，再结合业务背景进行人工解释和确认。

注意这里不是做画像分布分析！画像分析有点用但不多，而且给不出有用的画像标签。

例子：

例1: 使用了xgb分类模型对特征列按照gain做了排序。

最终选择的标签组合是：

cpp_seni_haschild in ('高','较高') 
and cpp_seni_childage >=3 and cpp_seni_childage <=14 
and cgp_action_grpcate in ('母婴#母婴、玩具乐器','图书#图书、音像、数字商品','玩具乐器#母婴、玩具乐器', '文娱#图书、音像、数字商品', '数字内容#图书、音像、数字商品', '食品饮料#食品饮料、酒类、生鲜', '家用电器#家用电器', '生鲜#食品饮料、酒类、生鲜')

例2: 使用了xgb分类模型对特征列按照gain做了排序

使用正负样本odds比判断画像标签取值

最终选择标签组合：

cpp_base_age in ('36-45岁', '46-55岁', '26-35岁')  
and cpp_base_education in (1, 2, 3, 4) --学历
and cgp_action_grpcate in ('图书#图书、音像、数字商品', '家用电器#家用电器', '运动户外#运动户外', '宠物生活#家具、家具、家装、厨具', '家装建材#家具、家具、家装、厨具', '食品饮料#食品饮料、酒类、生鲜', '电脑、办公#电脑、办公', '酒类#食品饮料、酒类、生鲜', '医疗保健#营养保健', '手机通讯#手机、数码', '家居日用#家具、家具、家装、厨具', '家具#家具、家具、家装、厨具', '珠宝首饰#服饰内衣、珠宝首饰', '厨具#家具、家具、家装、厨具', '数码#手机、数码', '美妆护肤#个护化妆', '汽车用品#汽车用品', '生鲜#食品饮料、酒类、生鲜', '玩具乐器#母婴、玩具乐器', '服饰内衣#服饰内衣、珠宝首饰', '本地生活/旅游出行#彩票、旅行、充值、票务')

（3）找出目标相关商品组

此步骤目的：用高相关商品组来召回潜在目标用户。根据项目扩量、精准的目标不同，将找出的商品组进行分层、分优先级处理，以便后续使用。

实现方法：

（1）分析法或算法：odds比、Jaccard相关性分析、Word2Vec Embedding + fassi相关性检索、购物篮分析法等。

（2）商品组粒度选择：类目、店铺、品牌、SPU 或SKU的粒度上，根据业务情况而定。

（3）对候选商品集按指标进行层次划分、或优先级排序，方便后续筛选使用。

例子：使用odds比对三级类目进行象限划分：

商品4象限理解：

第1象限的类目，覆盖正样本量级高、odds比也高，属于高精准的类目，可优先选择。闭眼用。

第2象限的类目，覆盖正样本量级小，但odds比高，属于能准确覆盖目标用户的商品，次优选。闭眼用。

第3象限的类目，覆盖正样本量级高，但odds低，即正负样本区分度不大，此部分商品人工挑着用。

第4象限的类目，覆盖正样本量级低、odds低，代表的是反向人群，这里商品不要用。

综上：上述分析确定了目标群体的显著画像特征、相关商品群组，基本确定了人群挖掘方向。

思考：1、如何引入其他的商品召回策略，比如热门商品组，会怎样？

2、如果使用Embedding、购物篮分析法，会需要哪些数据准备？排序和分层解读又该如何做？

问题2: 有需求的人群怎么找？有多少？预期转化怎么样？

3.2 群组发现：确定基础客户池

此步骤目的：找出对目标商品组有兴趣或有需求的人群。

实现方法：

（1）确定基本行为：有价值的行为，浏览、加购、购买、搜索等。

行为有正向、反向之分，是要用户做过还是没做过，必须要根据业务需求确认清楚。

行为和目标需求之间有转化强弱之分，一般行为关系由浅至深为：浏览->搜索->加购->购买。

（2）确定行为周期：指定行为统计周期，不同的行业有不同的复购周期，不同的行为有不同的行为周期。

（3）确定行为深度：统计周期内用户行为发生的频次、时长等，可以直接用数值，也可以用分层进行刻画。

（4）根据种子覆盖量、预估自然转化CVR，来选择合适的正反向行为和阈值区间。

（5）与前一步找出的画像标签叠加使用。

例子：

例1: 人群召回 = 3-8岁孩子家长标签 + 近三个月购买、加购 d1d2象限品牌和店铺用户。

brand_distict	action_type	召回用户量	覆盖种子量	覆盖种子占比	预估自然转化CVR
d1	order	5,724,004	5,690	8.45%	0.099%
d2	order	4,355,603	4,613	6.85%	0.106%
d1	add_cart	5,593,192	5,599	8.31%	0.100%

例2: 人群召回 = 使用d1d2象限三级类目，近2周内浏览或加购频次10次以上、搜索关键词频次2次以上，但没有发生购买的用户。

brand_distict	action_type	召回用户量	覆盖种子量	覆盖种子占比	预估自然转化CVR
d1d2	加购10次以上，搜索2次以上	4,945,328	5,560	16.55%	0.1124%