计算广告
FM 模型的表达式:
y = (w x + xT W(2) x)
y = (< w; x > + < W x;W x >)
FM ⾸先是对离散特征进⾏嵌⼊, 也即做embedding
之后通过对嵌⼊后的稠密向量进⾏内积来进⾏⼆阶特征组合
最后和线性部分结合
Embedding+MLP
不同领域的特征分别做embedding
然后将这些特征向量拼接concatenate
之后逐层堆叠, 也即MLP
FM 可以学习特征组合, 但是不够深⼊⾼阶特征 MLP 可以学习到⾼阶特征, 但是没有低阶特征组合
FNN
在Embedding+MLP 的基础上⾯, 把初始的特征, 替换称为FM
预训练的结果, 且每⼀个组的⼤⼩⼀致.
NFM
在FNN 的基础上, 把concat 层换成了⼆阶交互池化层(Bi-Interaction Pooling). 所以其实对于上层, 参数变少了.
相对于FM ⽽⾔, 相当于把和⼀次项的结合推迟了.
AFM
⊚ 在NFM 的基础上, 加⼊了注意⼒机制.
⊚ 相对于NFM ⽽⾔, 给每个逐元素乘法后的layer 赋予了不同的权重.
PNN
⊚ 在NFM 的基础上, 把逐元素乘法换成了内积或者外积后,进⾏concat.
Wide and Deep
Wide and Deep 由⾕歌提出, 采⽤神经⽹络联合训练的思路, 对神经⽹络进⾏并联.
⊚ Deep 部分是MLP, ⽽且是dense 特征的MLP.
⊚ Wide 部分是直接的LR.
⊚ 如果Wide 部分采⽤了FM, 就变成了DeepFM.
分开学习wide 和deep 部分 ⊚ 同时获得general 和specific 的信息 ⊚ 模型简单效果好, 易于扩展
Deep Cross
何恺明⼤神在图像计算中, 提出了深度残差⽹络. 当我们把这个思想⽤到神经⽹络中, 就出现了Deep Cross. 他和embedding+MLP 的区别在于, MLP 部分增加跳跃连接成为残差⽹络
CTR 预估框架: DIN和ESMM.
DIN 采⽤了attention 机制, 在序列化信息的学习中, 有效的提取
和当前相关的信息.
⊚ 考虑对同⼀领域的历史特征进⾏加权求和, 以加强其感兴趣
的特征的影响.
⊚ 权重由该历史特征及其对应备选⼴告特征通过⼦⽹络学习.
⼦⽹络主要包括特征之间的元素级别的乘法, 加法和全连接
等操作.
⊚ 注意⼒机制
ESMM
阿⾥妈妈提出, 主要是通过MTL 同时学习CTR 和CVR.
⊚ 利⽤CTR 和CTCVR 的关系:
p(y = 1; z = 1jx) = p(y = 1jx) p(z = 1jy = 1; x)
⊚ 在CVR 中, 对于整个样本空间建模.
⊚ MTL 中的权重共享
Explore与Exploit
Exploitation : 展示最好的广告。
Exploration: 展示些不同的广告
Thompson Sampling中的贝叶斯定理
• 假设有K个Arm,每个Arm𝑘的吐出0或者1,吐出1的概率记为𝜃𝑘
• 每个Arm的吐出X服从伯努利分布
• 如果我们假设𝜃𝑘也是一个随机变量呢?
• 贝叶斯定理𝑓 𝜃𝑘 𝑋 = 𝑃 𝑋 𝜃𝑘 𝑓(𝜃𝑘) P(𝑋)
• X是已经实验得到数据
• 𝑓(𝜃𝑘 )是𝜃𝑘 的先验分布
• 𝑃 𝑋 𝜃𝑘 根据𝜃𝑘 的先验分布产生当前实验结果的概率
• 𝑓 𝜃𝑘 𝑋 是通过历史实验数据得到的𝜃𝑘 的后验分布