用户AppList 特征提取

最新推荐文章于 2024-01-28 10:30:00 发布

deng0515001

最新推荐文章于 2024-01-28 10:30:00 发布

阅读量3.7k

点赞数 2

分类专栏：用户画像文章标签： python 决策树

本文链接：https://blog.csdn.net/deng0515001/article/details/107259001

版权

1 篇文章 2 订阅

订阅专栏

App与用户之间存在着密不可分的联系，用户在频繁使用这些App过程中也积累了大量的个人历史数据。这些App数据能帮助我们更好地去理解用户，推测用户的性别、职业、收入、兴趣、偏好等属性。
AppList 也是一种比较容易获取的数据信息，大部分的Android设备和部分IOS设备都能比较容易获取。很多公司能利用的数据中都有用户安装的applist。

因此如何合理的使用Applist，提高用户理解程度，刻画用户画像就非常重要。

当前手机获取的App数据主要包括：App安装包名称、App中文名、App安装列表、App安装时间。

使用K_mean
https://blog.csdn.net/baymax_007/article/details/87986743

这个方案是目前成本最低，同时使用效果最好的方案，相比之前的app分类，AUC从0.6 提升到了0.61，效果提升明显。

把一个用户的 applist理解为一个sentense，把每一个app当成一个词，调用gensim算法包中的word2vec，训练App的词向量。

过滤掉全民应用，也就是安装率大于50%的应用：‘微信’, ‘QQ’, ‘拼多多’, ‘抖音短视频’, ‘支付宝’, ‘手机淘宝’, ‘百度’, ‘QQ浏览器’, ‘腾讯视频’, ‘钉钉’。
过滤掉用户被动安装应用，也就是系统预安装应用，根据手机厂商统计，安装率大于80%的。
考虑到applist是无序的，并且word2vec也是无序的，因此只需要将window 设置足够大 window = 50 (实际情况中applist不可能大于100)，就可以保证学习到所有的app关系。
设置 min_count =100 ，过滤掉低频应用。
考虑到app词库不会太多，根据公式size > 8.33logn (n 为词表长度) 设置size = 100
得到所有app的一个向量表 n 100 维的。

使用时，获取一个用户安装所有app列表，比如这个用户安装了20个app，取出这20个 app的向量表 20* 128。对这个向量做平均池化处理，得到1 * 128的一个特征表。就可以直接在自己的模型里面使用了。