说到点击率模型这个“古老”的话题,大家第一时间想到的是wide&deep,DeepFM,DCN等。但是说到GNN预估点击率,大家又能想到几个呢?《Explicit Semantic Cross Feature Learning via Pre-trained Graph Neural Networks for CTR Prediction》这篇论文告诉我们GNN搭配预训练和显式交叉特征,可以"吊打"现有的点击率模型,那接下来看看这模型有什么特别之处吧。
现存模型有哪些问题?
论文指出,现存模型都是"隐式"挖掘交叉特征的,就像一般的DNN,所有特征embedding后输入到全连接层,每一个bit的特征都会交叉,但是我们也不清楚最后到底哪些特征之间的交叉特征真正被被模型所利用。当然有种常用添加显式交叉特征的做法,就是通过统计两个特征出现的count等历史统计特征,添加到模型。这样存在的问题也很明显,主要有以下两个大问题:
- 泛化能力不强:比较容易理解,基于统计提取交叉特征,我们只能提取到历史出现过的pair对,对于没处出现过的pair,我们只能给予个默认值,这样就影响了模型的泛化能力。
- 极其占用资源:统计特征实际使用时,需要一张很大的此表,key是统计的pair,value是统计值,而且随着时间变化,这张巨大的此表也需要频繁更新,由此引起了很多计算和维护成本。
所以本文提出了Pre-trained Cross Feature Graph Neural Networks(PCF-GNN)把丰富的交互特征建模成图上的边,每个节点都是一个