在计算广告和推荐系统中,点击率(Click Through Rate)预估是一个重要问题。它通常利用user信息、item信息和context信息来预测user对item的CTR。 传统CTR预估一般是特征工程+LR/FM的组合,这种通过大量特征工程来提高预测效果的工作费时费力,且构造过程不具有通用性。此外,传统的人工特征工程很难处理开放式的特征(如用户ID),而这些特征往往能够为模型提供许多正向的收益。
随着深度学习的发展,Wide&Deep、DeepFM等,以及结合用户历史行为的模型(DIN、DIEN)被应用到CTR任务中来。
1. 深度CTR模型的基本框架
典型的深度CTR模型可以分成:输入、特征嵌入(Embedding)、特征交互(特征提取)和输出四个部分。
输入:输入通常包含若干个<特征ID, 特征值>对(也可以One-Hot Encoding展开)。
特征嵌入(Embedding):在CTR任务中数据特征呈现高维、稀疏的特点,假设特征数为N,直接将这些特征进行One-Hot Encoding会产生巨大的参数数量。以FM的二阶项为例子,如一万个特征,两两构造二阶特征时将会产生一亿规模的特征权重参数。Embedding可以减小模型复杂度,通过矩阵乘法将1*N的离散特征向量通过维度为N*k的参数矩阵W压缩成1*k的低维度稠密向量,通常k<<N,参数从N^2降到N*k。
此外,CTR特征常以分组(field)的离散特征信息,如user gender、item category等,“将特征具有领域关系的特点作为先验知识加入到神经网络的设计中去:同领域的特征嵌入后直接求和作为一个整体嵌入向量”。沿用这样的方法基于以下三个原因:
-
经分组特征嵌入后送入后续模块得到的是定长向量,且特征组个数<<特征数,减少后续模块的参数量。
-
不同组的嵌入维度(即上文中的k)可以不同,可以根据特征组内的特征个数合理设计嵌入维度。
-
如果特征组的嵌入维度相同,则不同特征组间的嵌入向量可以两两组合得到大有裨益的二阶特征信息。
特征交互:经过特征嵌入可以获得稠密向量,在特征交互模块中设计合理的模型结构将稠密向量变成标量,该模块直接决定模型的质量好坏。
输出:将特征交互模块输出的标量用sigmoid函数映射到[0, 1],即表示CTR。