作者·黄崇远
『数据虫巢』
全文共4534字
题图ssyer.com
“ 没点独特的东西,怎么好意思说自己在炼仙丹。”
本文强接上文《数据与广告系列二十六:知识迁移的Embedding应用,智能化定向的解药》,你可以认为是上篇的姐姐篇,你也可以认为上篇给了智能定向的“骨骼”,而这篇是丰其“血肉”,更是灵魂拷问,精髓所在。
所以,如果你对上文不清楚,或者当前场景不甚清楚,强烈推荐先翻一翻上文,甚至是整个系列,反正篇篇都是老夫的心血之作,看了岂不是赚大了。
01
前文遗留的问题
其实本身就智能定向这种给广告推荐画像标签这种场景就已经够独特了,本身也无法使用常规的建模思路去解决。
所以,就其整体的解决逻辑来说,还是挺有意思的,代表了这一类通过丰富数据+embedding知识迁移的思路来解决数据稀疏的问题。
但在文末,我们提出了一些问题,诸如,USER端要不要进一步丰富特征的问题,例如模型训练目标考量问题等等。
其中USER端是否要丰富特征的问题,上篇笔者(公众号:数据虫巢)已经给出了自己的答案,那就是为了“迫使”tag embedding从样本目标中学习到迁移的知识,我们尽量简化USER的表征,甚至强迫让USER=N*TAG,从而让AD*USER的关系直接迁移至AD*TAG,而不被其他特征所分散。
当然,代价也肯定是有的,那就是对于目标的拟合可能没有想象准确。而笔者给出的定性就是权衡的考量。
剩下的一个问题就是,多目标的问题,即在我们通常精排也好,粗排也好,其实是可以做CTR、CVR多目标一起考虑的,在我们的场景中,如何看待这个问题。
除此之外,这种模型结构还有哪些坑,或者说必须要解决的问题。我们一一来拆解。
02
先聊聊ESMM