【阅读笔记】美团机器学习实践_5.2用户画像

用户画像:从海量的用户数据中,建模抽象出每个用户的属性标签体系,这些属性通常需要有一定的商业价值。
用户图像数据挖掘:
1.数据收集
公司自有数据、互联网抓取的公开数据、第三方数据等
2.特征计算
特征爬虫:给出数据样本后,自动扫描结构化的数据表,根据相关性指标找到和样本标签强相关的数据列,处理后加入特征库作为后续建模使用。
3.特征库维护
统一管理特征,方便新特征的生成和老特征的下线,保证特征质量,检测特征波动情况,有质量风险的时候提出预警。
4.机器学习模型
使用算法建模。
注意为了方便统一预测,会采用预测模型标记语言做模型表达,减少模型预测时大量的适配工作。
预测模型标记语言(Predictive Model Markup Language,PMML):是一种可以呈现预测分析模型的事实标准语言。标准东西的好处就是,各种开发语言都可以使用相应的包,把模型文件转成这种中间格式,而另外一种开发语言,可以使用相应的包导入该文件做线上预测。不过,当训练和预测使用同一种开发语言的时候,PMML 就没有必要使用了,因为任何中间格式都会牺牲掉独有的优化。
5.应用接口
标签的收录管理。
数据使用的两种模式:给定用户ID查询用户属性标签,给定用户属性组合(交并等)后圈定符合条件的一批用户。
6.画像应用
将用户画像标签应用到业务线

用户标识:userID、deviceID
自然人(NPI):一个用户会有多个ID(如userID,deviceID,qq,wechat等),但是ID之间相互关联,有关联的ID一起构成一个实际的用户,也就是自然人。来自同一用户的所有ID统一对应到一个唯一编号NPI。
通常的识别方法为:将数据表示为分布式的图,求解最大连通子图,每个连通子图表示一个自然人,给每一个自然人一个唯一的编号自然人ID。

如果一个参数化模型可以分解为 P ( x , y ∣ θ ) = P ( y ∣ x , θ ) P ( x ∣ θ ) P(x,y|\theta )=P(y|x,\theta)P(x|\theta) P(x,yθ)=P(yx,θ)P(xθ)的形式,则未标记样本实例的价值就体现在,它们能够更好的地估计模型参数从而提高模型性能。

推导过程:
假设所有数据服从于某个由 L L L个高斯分布混合而成的分布,即 f ( x ∣ θ ) = ∑ i = 1 L a i f ( x ∣ θ i ) f(x|\theta)=\sum_{i=1}^La_if(x|\theta_i) f(xθ)=i=1Laif(x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

靓仔明华

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值