【阅读笔记】美团机器学习实践_5.2用户画像

最新推荐文章于 2025-10-08 12:16:45 发布

原创

最新推荐文章于 2025-10-08 12:16:45 发布 · 585 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

用户画像：从海量的用户数据中，建模抽象出每个用户的属性标签体系，这些属性通常需要有一定的商业价值。
用户图像数据挖掘：
1.数据收集
公司自有数据、互联网抓取的公开数据、第三方数据等
2.特征计算
特征爬虫：给出数据样本后，自动扫描结构化的数据表，根据相关性指标找到和样本标签强相关的数据列，处理后加入特征库作为后续建模使用。
3.特征库维护
统一管理特征，方便新特征的生成和老特征的下线，保证特征质量，检测特征波动情况，有质量风险的时候提出预警。
4.机器学习模型
使用算法建模。
注意为了方便统一预测，会采用预测模型标记语言做模型表达，减少模型预测时大量的适配工作。
预测模型标记语言(Predictive Model Markup Language,PMML)：是一种可以呈现预测分析模型的事实标准语言。标准东西的好处就是，各种开发语言都可以使用相应的包，把模型文件转成这种中间格式，而另外一种开发语言，可以使用相应的包导入该文件做线上预测。不过，当训练和预测使用同一种开发语言的时候，PMML 就没有必要使用了，因为任何中间格式都会牺牲掉独有的优化。
5.应用接口
标签的收录管理。
数据使用的两种模式：给定用户ID查询用户属性标签，给定用户属性组合(交并等)后圈定符合条件的一批用户。
6.画像应用
将用户画像标签应用到业务线

用户标识：userID、deviceID
自然人（NPI）:一个用户会有多个ID（如userID，deviceID，qq，wechat等），但是ID之间相互关联，有关联的ID一起构成一个实际的用户，也就是自然人。来自同一用户的所有ID统一对应到一个唯一编号NPI。
通常的识别方法为：将数据表示为分布式的图，求解最大连通子图，每个连通子图表示一个自然人，给每一个自然人一个唯一的编号自然人ID。

如果一个参数化模型可以分解为 $P(x,y∣θ)=P(y∣x,θ)P(x∣θ)P(x,y|\theta )=P(y|x,\theta)P(x|\theta)$ 的形式，则未标记样本实例的价值就体现在，它们能够更好的地估计模型参数从而提高模型性能。