前言
最近在用户画像任务中有个迷茫点,通过从用户行为或者用户数据中为用户量身定制的标签到底准不准确呢?之前对用户画像的初步了解写过一篇博客,其中对画像的验证主要基于模型的线上线下评估。然而,在实际的业务中大多数是依靠业务人员或者分析人员的经验去看待,有很多验证方法又不一定适用实际的业务场景,所以在网上一番搜索后在验证思路上有了一些起色,同时也想把这些内容做些分享,也希望在这个方向上有更多的交流。
用户画像大体流程
用户画像建设大体的流程如上图所示,其中较为细节的内容还是结合实际的业务内容,下面针对用户画像的验证主要还是集中在用户画像开发和用户画像更新的节点上。
用户画像分类
以下仅仅是较为粗略地分类
用户画像验证
1.画像开发过程中验证
(1)模型验证
此方法较多用于基础信息以及基于用户行为的用户画像,在用户标签例如性别、年龄等能够有相应的标注or真实结果时可以使用,通用的验证指标为AUC、KS、ROC、Confusion Matrix等。
(2)抽样验证
在用户量较大的前提下,可以采用随机抽样或者分层抽样的方式进行验证。
(3)交叉验证
交叉验证分画像指标间的交叉验证及外部数据的补充交叉验证,外部数据例如第三方机构等。
2.画像上线后验证
(1)真实数据验证
随着业务发展,一些用户画像信息会从无到有慢慢积累,毋庸置疑的是,将真实数据用于验证画像类指标是最准确的。
(2)A/B Test
A/B Test 是互联网公司最常用的验证方法,一般基于用户画像制定的策略在上线时都会进行严格的对比试验,以测试画像的准确性。
小思考
在实际业务场景中还是存在有难以验证的用户标签,与其一味的追求单个个体的标签正确性,更应该将精力置于标签上线后对实际业务的效果评估上,以业务效果来评定标签的有效性个人觉得可能更适用一些,从效果上也能一定程度地反映标签有无或者标签算法是否存在不同。
参考资料:https://www.zhihu.com/question/36422121/answer/207069948