用户画像准确性评测初探 ——拨开python大数据分析的神秘面纱

本文探讨了用户画像准确性的评测方法,重点介绍了Python在数据处理和分析中的应用。通过问卷调查和数据分析,揭示了用户画像评测的关键步骤,包括问卷设计、数据处理、分析和优化。同时,强调了pandas库在数据处理中的重要作用,提供了pandas的安装、使用总结及常见操作示例。
摘要由CSDN通过智能技术生成

Part1 用户画像评测回顾与总结

1、为什么做用户画像评测?

将时钟拨回到2018年初,大家迫切想打破以往资讯推荐无章可循的局面,而今日的推荐算法也似乎演成了神话,用户意图这个词在WiFi管家团队被一再提及,继而AI推荐布局被推到了前台。

用户意图识别的优劣取决于对用户实时需求的了解程度,此事古来难。AI团队率先做的尝试是在一些特定场景下猜测用户意图,进行意图相关推荐,如住酒店用户,地铁上用户等,这是算法可以做的事情,那测试在这个过程中可以做些什么呢?算法验证相对滞后,有什么可以先行的呢?用户意图识别首要识别对用户场景,如果场景错了,后面的工作就无法关联起来。如,住酒店,是个动态场景,尝试进一步拆分成可衡量的静态场景,如,什么人(性别,工作,偏好等)?什么时间(出行时间)住什么酒店(酒店位置,级别等)?这些我们是有后套标签系统的,经过了解这些标签系统已经有些尝试应用,但是标签本身准确性却无从评估,因此,用户标签准确性评测就在懵懂中筹备开始了。

2、用户画像准确性怎么做?

感谢先行者浏览器团队,提供了最初的评测思路,他们的考虑很周全。而我在具体的实践过程中,根据业务的实际情况制定了最终的评测方案(下图),从第一轮标签提取开始,就暴露出各种细节问题,好在都一一解决了。

 

 

 

简单列下可供后来者借鉴的几个注意项: 视频资料学习分享 企(Q)鹅群 519970686

(1) 问卷设计的原则:每一个问卷题目与后台标签对应关系提前考虑好,有的一对一有的一对多。问卷的每一个选项要与对应标签的取值对应好关系,这会大大简化后期脚本处理工作。

(2) 问卷下发回收:最初下发了label数量>9的用户,用>8的用户补了1k,结果实际回收率不到50%,于是追加了>8的全量用户,总共4k多个,实际回收依然不足1k,而此间耗费了将近2周的时间。

(3) 关键字选取:整个过程关键字是imei,但下发问卷时,众测平台关键字却是qq,这就在数据处理上又需要多一层转换处理了。

(4) 标签系统提数:标签系统的数据是周期性更新,更新频率高,建议问卷回收后进行二次提数,尽可能减少时间差造成的数据不一致。

(5) 脚本处理:因为涉及的数据量比较大,涉及到比较多文件的处理,强烈建议装两个库,jupyter notebook(交互式笔记本,可及时编写和调试代码,很好用),还有一个大数据处理的pandas,对于excel的操作实在便利太多。

(6) 经纬度处理:经纬度数据没法下发问卷,因此问卷题目设计成问具体地址,大楼,小区等。数据转换接入了地图的逆地址解析接口,然后再对比具体位置信息,这里的对比也是纠结了1天时间,最终精确到2个中文字符的维度。

3、用户画像准确性怎么分析?

至问卷回收完毕,实际工作才完成一半,接下来就是远超预估的复杂繁琐的数据处理及分析过程了。我想用下面这张图来描述整个分析过程。

 

 

 

整个分析包括四部分:

(1) 黄框:活跃用户数据处理。

1.为什么要做?

活跃用户主要下发问卷前用,这

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值