用户画像:从海量的用户数据中,建模抽象出每个用户的属性标签体系,这些属性通常需要有一定的商业价值。
用户图像数据挖掘:
1.数据收集
公司自有数据、互联网抓取的公开数据、第三方数据等
2.特征计算
特征爬虫:给出数据样本后,自动扫描结构化的数据表,根据相关性指标找到和样本标签强相关的数据列,处理后加入特征库作为后续建模使用。
3.特征库维护
统一管理特征,方便新特征的生成和老特征的下线,保证特征质量,检测特征波动情况,有质量风险的时候提出预警。
4.机器学习模型
使用算法建模。
注意为了方便统一预测,会采用预测模型标记语言做模型表达,减少模型预测时大量的适配工作。
预测模型标记语言(Predictive Model Markup Language,PMML):是一种可以呈现预测分析模型的事实标准语言。标准东西的好处就是,各种开发语言都可以使用相应的包,把模型文件转成这种中间格式,而另外一种开发语言,可以使用相应的包导入该文件做线上预测。不过,当训练和预测使用同一种开发语言的时候,PMML 就没有必要使用了,因为任何中间格式都会牺牲掉独有的优化。
5.应用接口
标签的收录管理。
数据使用的两种模式:给定用户ID查询用户属性标签,给定用户属性组合(交并等)后圈定符合条件的一批用户。
6.画像应用
将用户画像标签应用到业务线
用户标识:userID、deviceID
自然人(NPI):一个用户会有多个ID(如userID,deviceID,qq,wechat等),但是ID之间相互关联,有关联的ID一起构成一个实际的用户,也就是自然人。来自同一用户的所有ID统一对应到一个唯一编号NPI。
通常的识别方法为:将数据表示为分布式的图,求解最大连通子图,每个连通子图表示一个自然人,给每一个自然人一个唯一的编号自然人ID。
如果一个参数化模型可以分解为 P ( x , y ∣ θ ) = P ( y ∣ x , θ ) P ( x ∣ θ ) P(x,y|\theta )=P(y|x,\theta)P(x|\theta) P(x,y∣θ)=P(y∣x,θ)P(x∣θ)的形式,则未标记样本实例的价值就体现在,它们能够更好的地估计模型参数从而提高模型性能。
推导过程:
假设所有数据服从于某个由
L
L
L个高斯分布混合而成的分布,即
f
(
x
∣
θ
)
=
∑
i
=
1
L
a
i
f
(
x
∣
θ
i
)
f(x|\theta)=\sum_{i=1}^La_if(x|\theta_i)
f(x∣θ)=∑i=1Laif(x∣θi)
其中,
∑
i
=
1
L
a
i
=
1
\sum_{i=1}^La_i = 1
∑i=1Lai=1为混合系数,
θ
=
θ
i
\theta={\theta_i}
θ=θi为参数。这样标记就可以视为一个由选定的混合成分
m
i
m_i
mi和特征向量
x
i
x_i
xi以概率
P
(
c
i
∣
x
i
,
m
i
)
P(c_i|x_i,m_i)
P(ci∣xi,mi)决定的随机变量。
根据最大后验概率假设,最优分类公式如下:
h
(
x
)
=
arg max
k
∑
j
P
(
c
i
=
k
∣
m
i
=
j
,
x
i
)
P
(
m
i
=
j
∣
x
i
)
h(x)={\underset{k}{\operatorname {arg\,max}}}\sum_{j}P(c_i=k|m_i=j,x_i)P(m_i=j|x_i)
h(x)=kargmaxj∑P(ci=k∣mi=j,xi)P(mi=j∣xi)其中
h
(
x
)
h(x)
h(x)表示最终分类结果,
c
i
c_i
ci表示类别,
P
(
m
i
=
j
∣
x
i
)
=
a
j
f
(
x
i
∣
θ
j
)
∑
i
=
1
L
a
l
f
(
x
i
∣
θ
j
)
P(m_i=j|x_i)=\frac{a_jf(x_i|\theta_j)}{\sum_{i=1}^La_lf(x_i|\theta_j)}
P(mi=j∣xi)=∑i=1Lalf(xi∣θj)ajf(xi∣θj)
这两项的第一项与类别标记有关,第二项并不依赖示例的标记,因此如果有大量未标记实例可用,则意味着能够用于估计第二项的示例显著增多,让第二项的估计更加准确从而让整体更加准确。
【待解决】(之前在实习中用到全自动automl算子时,readme的要求也是希望能够将无label的测试集和有label的训练集同时输入模型去训练,保证不会因为测试集数据的分布影响模型效果,是否是同一个道理之后去查一下)