用户AppList 特征提取

用户AppList 特征提取

问题描述

  1. App与用户之间存在着密不可分的联系,用户在频繁使用这些App过程中也积累了大量的个人历史数据。这些App数据能帮助我们更好地去理解用户,推测用户的性别、职业、收入、兴趣、偏好等属性。
  2. AppList 也是一种比较容易获取的数据信息,大部分的Android设备和部分IOS设备都能比较容易获取。很多公司能利用的数据中都有用户安装的applist。

因此如何合理的使用Applist,提高用户理解程度,刻画用户画像就非常重要。

App数据长啥样

当前手机获取的App数据主要包括:App安装包名称、App中文名、App安装列表、App安装时间。

几种AppList处理方案

方案1:直接对应用分类

  1. 通过爬虫获取 应用商店的分类。
    常用的应用商店有: 小米 百度
  2. 对用户的app进行分类,统计每个类的个数作为特征,参与模型训练。

方案2: 对app聚簇

使用K_mean
https://blog.csdn.net/baymax_007/article/details/87986743

方案3: 使用word2vec 对app Embedding

这个方案是目前成本最低,同时使用效果最好的方案,相比之前的app分类,AUC从0.6 提升到了0.61,效果提升明显。

把一个用户的 applist理解为一个sentense,把每一个app当成一个词, 调用gensim算法包中的word2vec,训练App的词向量。

  1. 过滤掉全民应用,也就是安装率大于50%的应用:‘微信’, ‘QQ’, ‘拼多多’, ‘抖音短视频’, ‘支付宝’, ‘手机淘宝’, ‘百度’, ‘QQ浏览器’, ‘腾讯视频’, ‘钉钉’。
  2. 过滤掉用户被动安装应用,也就是系统预安装应用,根据手机厂商统计,安装率大于80%的。
  3. 考虑到applist是无序的,并且word2vec也是无序的,因此只需要将window 设置足够大 window = 50 (实际情况中applist不可能大于100),就可以保证学习到所有的app关系。
  4. 设置 min_count =100 ,过滤掉低频应用。
  5. 考虑到app词库不会太多,根据公式size > 8.33logn (n 为词表长度) 设置size = 100
    得到所有app的一个向量表 n
    100 维的。

使用时,获取一个用户安装所有app列表,比如这个用户安装了20个app,取出这20个 app的向量表 20* 128。对这个向量做平均池化处理,得到1 * 128的一个特征表。就可以直接在自己的模型里面使用了。

方案4: 使用app2vec 对app Embedding

考虑到也可以获取到app的安装顺序和使用顺序,因此可以将applist当成一个有序的列表进行embedding。
由于我这里没有这个数据,因此没有尝试该方案。

参考文档:

app使用的几种方式:
https://zhuanlan.zhihu.com/p/78413058
word2vec入门方法:
https://rare-technologies.com/word2vec-tutorial
word2vec深入说明:
https://www.jianshu.com/p/d6a0aec6e9a1

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

deng0515001

求鼓励

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值