稠密特征一般是相对稀疏特征来说的,我们知道类别特征经过独热编码之后比较稀疏,比如类别 [‘小猫’,‘小狗’,‘小熊’,‘小猴’] 被独热编码后的数据结构为[[1,0,0,0],[0,1,0,0],[0,0,1,0],[0,0,0,1]],可以看到这种数据很稀疏,但是像桌子的长度这种稠密特征数据一般就是 [3.4,2.6,8.9,6.7] 这种。一般针对类别特征都是通过词嵌入的方法把稀疏特征转化为稠密特征然后再输入到神经网络中,不然直接输入会导致维度爆炸等问题,那么怎样把稠密数据加入到CTR预估网络模型中呢?
常规方法
1. 如图 1 所示,把原始的稠密特征直接和全连接层进行连接不和通过词嵌入转化的类别稠密特征进行交叉:
▲ 图1. 直接送入全连接
右边的类别特征经过词嵌入后每个类别特征都被映射成了一个向量,不同的类别向量之间经过交叉运算得到交叉特征。而左边的原始稠密特征不和类别特征进行交叉,直接和高阶的交叉特征进行拼接作为全连接层的输入。
2. 如图 2 所示,把原始稠密特征离散化,转换为离散特征,然后和原始类别特征都进行词嵌入,之后再进行特征交叉。此时可以发现,这样相当于原始稠密特征参加了特征交叉: