命中率为何如此之低？

最新推荐文章于 2024-07-19 10:46:46 发布

数据苦行僧

最新推荐文章于 2024-07-19 10:46:46 发布

阅读量393

点赞数

分类专栏：数据分析文章标签：数据分析 hive

本文链接：https://blog.csdn.net/weixin_42906161/article/details/122779777

版权

数据分析专栏收录该内容

3 篇文章 0 订阅

订阅专栏

某日，一个小伙伴对我说：“僧哥僧哥，现在有一个非常重要POC，我们将建模后的5000万人群包放入前置机中，客户问询的匹配率不到1%，这也太低啦...... 您看有没有什么分析思路？”

这种问题很重要，错综复杂，时间还紧迫，很容易急火攻心，乃至走火入魔。对此，我们更应当沉着冷静，抽丝剥茧，理清思路：

POC考题再确认
问题定义及再现
建模预测过程复盘
问询服务功能测试
问询ID真实性验证
双方TA浓度分析

上述几点，大体上可按顺序执行，同时也可按照执行代价做灵活的调整。

POC考题再确认

一次POC实际上可以理解为一次考试，我们不用纠结于平时基本知识点掌握是否扎实，目标只有一个，就是凭各种本事勇夺第一。凭借多年的应试经验，我认为致胜的关键主要有如下4点：

1）沉着冷静；

2）看清题目；

3）注重技巧；

4）检查交卷。

其中，第2点至关重要，其关键评价指标为：命中率+转化率。对此，第3点的本质则是在鱼与熊掌之间博弈，寻找最优解。然而，执行团队比较实在，客户期望生成5000万人群包，咱们就生成了5000万，但这种做法有点不利于POC胜出。客户无法知晓实际入库的人数，也不一定在乎，但相较而言，适当增加人群包的ID量，对命中率的改善非常直接，同时对转化率影响其实没那么明显，我认为是一个不错的选择。但需要强调的是：此为板砖，目的在于引发大家在战术层面的思考，至于实际怎么执行，看官们可根据实际情况自行把握。

问题定义及复现

根据小伙伴反馈，可总结为2点：

匹配率低于1%，感觉特别低
匹配率日渐降低

对此，需要有如下几点考虑：

对方的统计口径是怎样的？是否严谨？
产生这种现象的可能原因有哪些？
这到底是不是一个问题？

经初略确认，为了统计方便，技术同学简单按照pv进行统计。实际上 uv命中率才是更准确的，这可能是一个关键的突破点。白天也没抽出时间，出于对数据求真的热情以及事止于我的工作使命，小僧一不小心熬了个通宵......

表1 人群包uv占比

表2 每日命中率分析

表3 命中率下降分析

解读如下：

从表1分析，假设大盘覆盖15亿网民，且建模输出人群和问询用户足够随机，那么POC命中率上限应当在3.3%左右。
从表2分析，pv命中率明显低于uv命中率，其主要原因是：不可命中用户每日查询约6次，远高于可命中用户。
从表3分析，整体的uv命中率较为稳定维持在2.68%左右，说明不存在命中率下降问题。至于每日uv命中率和pv命中率，的确看起来呈下降趋势，其主要原因是前几日的未命中用户在当日的问询比例较高。

综上所述，2.68%/3.3%=81%。平均uv命中率2.68%已是一个较为合理的结果。为严谨起见，下文将对影响匹配率的其它因素做进一步分析。

建模预测过程复盘

可重点关注2点：1）ID的时效性；2）人群包的 TA 特征。经确认，建模和预测使用了最新的活跃用户，说明设备ID的时效性和活跃性没有问题。从输出人群包的TA看，用户是偏女性的，这对命中率存在不利影响，具体将在下文单独阐述。

问询服务功能测试

问询服务的可用性，也是影响命中率的关键可能因素。为保险起见，可使用入库全量设备ID模拟测试，看命中率是否为100%。

问询ID真实性验证

问询的设备ID来自于各种媒体，数据质量良莠不齐，不排除存在作弊流量的可能，可通过较为权威的3方平台辅助验证。经验证发现，客户问询的设备ID存在一定的水分。

验证包名称	验证抽样UV	匹配率
建模包抽样	1,000,000	99%
问询ID抽样	1,000,000	90%

表4 ID真实性验证

双方TA浓度分析

通过3方权威平台辅助验证性别分布，发现客户问询的设备ID不是随机网民，建模包人群明显偏女性，而客户问询的用户明显偏男性，这也会导致实际命中率低于3.3%。

验证包名称	验证抽样UV	女性占比
建模包抽样	1,000,000	86.38%
问询ID抽样	1,000,000	33.69%

表5 TA浓度分析

其它经验

以终为始。方向对才可能做对。
先简再繁。能快速获取的信息，优先获取，其往往能提供问题解决的捷径。
耳听为虚，眼见为实。所有获取到的信息，只能作为参考，不会撒谎的只有充分清洗过的数据。比如：我们问客户问询时是否存在缓存机制，客户说没有，但实际上从数据表现看，未命中的用户再次被查询的概率要远大于已命中用户。

欢迎看官加公众号交流~~

数据苦行僧

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
命中率为何如此之低？

某日，一个小伙伴对我说：“僧哥僧哥，现在有一个非常重要POC，我们将建模后的5000万人群包放入前置机中，客户问询的匹配率不到1%，这也太低啦...... 您看有没有什么分析思路？”这种问题很重要，错综复杂，时间还紧迫，很容易急火攻心，乃至走火入魔。对此，我们更应当沉着冷静，抽丝剥茧，理清思路： POC考题再确认问题定义及再现建模预测过程复盘问询服务功能测试问询ID真实性验证双方TA浓度分析 ...
复制链接

扫一扫