目标:稀疏数据追求模型的泛化能力和拟合能力
- 泛化能力:对未见过的数据的抽象理解能力,通过embeding 将one-hot特征抽象成N维稠密特征来达到。
- 拟合能力:对稀疏数据中用户特殊爱好的关注能力。
思路:dnn + lr, 其中dnn负责泛化能力,lr负责拟合能力。lr的特征选择一些目标发生时出现频次多的特征。在稀疏数据的情况下,可以理解为特征重要性比较高的特征。
模型架构:
- WIDE:
- y = wT x+ b
- 特征组合:输入数据组合,还是模型算法组合呢?没有搞懂
- DEEP:
- BP前馈网络结构。 离散特征: embeding。 embeding维度:10-100. embeding 后特征拼接为长特征。
- a(l+1) = f(W(l)a(l) + b(l))
损失函数:
实验:
实验数据:
- 离散数据:one-hot ID化; 连续特征:正则归一化到0-1,划分为N部分。 归一化公式:(i-1)/(n-1)(从论文的角度没有看懂)
模型训练:
32维的类别特征,和其它特征拼接为1200维。3层隐含层。最后logistic 函数。
500亿的数据样本。