某日,一个小伙伴对我说:“僧哥僧哥,现在有一个非常重要POC,我们将建模后的5000万人群包放入前置机中,客户问询的匹配率不到1%,这也太低啦...... 您看有没有什么分析思路?”
这种问题很重要,错综复杂,时间还紧迫,很容易急火攻心,乃至走火入魔。对此,我们更应当沉着冷静,抽丝剥茧,理清思路:
-
POC考题再确认
-
问题定义及再现
-
建模预测过程复盘
-
问询服务功能测试
-
问询ID真实性验证
-
双方TA浓度分析
上述几点,大体上可按顺序执行,同时也可按照执行代价做灵活的调整。
POC考题再确认
一次POC实际上可以理解为一次考试,我们不用纠结于平时基本知识点掌握是否扎实,目标只有一个,就是凭各种本事勇夺第一。凭借多年的应试经验,我认为致胜的关键主要有如下4点:
1)沉着冷静;
2)看清题目;
3)注重技巧;
4)检查交卷。
其中,第2点至关重要,其关键评价指标为:命中率+转化率。对此,第3点的本质则是在鱼与熊掌之间博弈,寻找最优解。然而,执行团队比较实在,客户期望生成5000万人群包,咱们就生成了5000万,但这种做法有点不利于POC胜出。客户无法知晓实际入库的人数,也不一定在乎,但相较而言,适当增加人群包的ID量,对命中率的改善非常直接,同时对转化率影响其实没那么明显,我认为是一个不错的选择。但需要强调的是:此为板砖,目的在于引发大家在战术层面的思考,至于实际怎么执行,看官们可根据实际情况自行把握。
问题定义及复现
根据小伙伴反馈,可总结为2点:
-
匹配率低于1%,感觉特别低
-
匹配率日渐降低
对此,需要有如下几点考虑:
-
对方的统计口径是怎样的?是否严谨?
-
产生这种现象的可能原因有哪些?
-
这到底是不是一个问题?
经初略确认,为了统计方便,技术同学简单按照pv进行统计。实际上 uv命中率才是更准确的,这可能是一个关键的突破点。白天也没抽出时间,出于对数据求真的热情以及事止于我的工作使命,小僧一不小心熬了个通宵......
表1 人群包uv占比
表2 每日命中率分析
表3 命中率下降分析
解读如下:
-
从表1分析,假设大盘覆盖15亿网民,且建模输出人群和问询用户足够随机,那么POC命中率上限应当在3.3%左右。
-
从表2分析,pv命中率明显低于uv命中率,其主要原因是:不可命中用户每日查询约6次,远高于可命中用户。
-
从表3分析,整体的uv命中率较为稳定维持在2.68%左右,说明不存在命中率下降问题。至于每日uv命中率和pv命中率,的确看起来呈下降趋势,其主要原因是前几日的未命中用户在当日的问询比例较高。
综上所述,2.68%/3.3%=81%。平均uv命中率2.68%已是一个较为合理的结果。为严谨起见,下文将对影响匹配率的其它因素做进一步分析。
建模预测过程复盘
可重点关注2点:1)ID的时效性;2)人群包的 TA 特征。经确认,建模和预测使用了最新的活跃用户,说明设备ID的时效性和活跃性没有问题。从输出人群包的TA看,用户是偏女性的,这对命中率存在不利影响,具体将在下文单独阐述。
问询服务功能测试
问询服务的可用性,也是影响命中率的关键可能因素。为保险起见,可使用入库全量设备ID模拟测试,看命中率是否为100%。
问询ID真实性验证
问询的设备ID来自于各种媒体,数据质量良莠不齐,不排除存在作弊流量的可能,可通过较为权威的3方平台辅助验证。经验证发现,客户问询的设备ID存在一定的水分。
验证包名称 | 验证抽样UV | 匹配率 |
建模包抽样 | 1,000,000 | 99% |
问询ID抽样 | 1,000,000 | 90% |
表4 ID真实性验证
双方TA浓度分析
通过3方权威平台辅助验证性别分布,发现客户问询的设备ID不是随机网民,建模包人群明显偏女性,而客户问询的用户明显偏男性,这也会导致实际命中率低于3.3%。
验证包名称 | 验证抽样UV | 女性占比 |
建模包抽样 | 1,000,000 | 86.38% |
问询ID抽样 | 1,000,000 | 33.69% |
表5 TA浓度分析
其它经验
-
以终为始。方向对才可能做对。
-
先简再繁。能快速获取的信息,优先获取,其往往能提供问题解决的捷径。
-
耳听为虚,眼见为实。所有获取到的信息,只能作为参考,不会撒谎的只有充分清洗过的数据。比如:我们问客户问询时是否存在缓存机制,客户说没有,但实际上从数据表现看,未命中的用户再次被查询的概率要远大于已命中用户。