【CTR模型】TensorFlow2.0 的 xDeepFM 实现与实战(附代码+数据)

最新推荐文章于 2023-01-08 10:47:48 发布

置顶

VariableX

最新推荐文章于 2023-01-08 10:47:48 发布

阅读量2k

点赞数 3

分类专栏：深度学习相关 CTR 相关文章标签： xDeepFM tensorflow2.0 ctr

本文链接：https://blog.csdn.net/VariableX/article/details/107736113

版权

本篇文章讲解 xDeepFM 的 tensorflow2.0 实现，并使用 Criteo 数据集的子集加以实践。如果在看本文时有所困惑，可以看看 xDeepFM 的相关理论：CTR 模型之 Deep & Cross (DCN) 与 xDeepFM 解读。本文使用的数据下载地址于代码获取地址在文末获取。首先了解一下 Criteo数据集，它由有39个特征，1个label列，其中以I开头的为数值型特征，以C开头的为类别特征：可以看到数据中有缺失值需要填充，并且类别变量需要进行类别编码(onehot

摘要由CSDN通过智能技术生成

CTR 系列文章：

本篇文章讲解 xDeepFM 的 tensorflow2.0 实现，并使用 Criteo 数据集的子集加以实践。如果在看本文时有所困惑，可以看看 xDeepFM 的相关理论：CTR 模型之 Deep & Cross (DCN) 与 xDeepFM 解读。

本文使用的数据下载地址于代码获取地址在文末获取。

首先了解一下 Criteo数据集，它由有39个特征，1个label列，其中以I开头的为数值型特征，以C开头的为类别特征：

在这里插入图片描述

可以看到数据中有缺失值需要填充，并且类别变量需要进行类别编码(onehot 编码的任务交给模型)，这部分预处理的代码不详细讲了。

为了方便后面建立模型，先将特征划分为 dense 特征与 sparse 特征两个类别：

# 数值型
dense_feats = [f for f in cols if f[0] == "I"]
# 类别型
sparse_feats = [f for f in cols if f[0] == "C"]

xDeepFM 网络结构如下：

在这里插入图片描述

构造模型输入

对于 dense 特征，按下面的代码构造输入：

# 构造每个 dense 特征的输入
dense_inputs = []
for f in dense_feats:
    _input = Input([1], name=f)
    dense_inputs.append(_input)

# 将输入拼接到一起
concat_dense_inputs = Concatenate(axis=1)(dense_inputs)  # ?, 13

# 对dense特征加权求和
fst_order_dense_layer = Dense(1)(concat_dense_inputs)

上面代码的注释中？表示输入数据的 batch_size。

对于每一个 sparse 特征，一般都是进行one-hot以后再转化为embedding特征，但实际上由于稀疏性的存在，很多位置的 $x_i$ 取0时，对应的 $w_i x_i$ 也为0。因此，可以将 sparse 特征 embedding 到 1维，然后通过 embedding lookup 的方式来找到对应的 $w_i$ 。

这里举个例子：假设我们的性别特征取值有-1，0，1三种，某个样本的取值为1，则其one-hot以后为[0, 0, 1]向量，我们进行线性回归时会得到 $w_1 \times 0 + w_2 \times 0 +w_3 \times 1$ ，仅仅只有 $w_3$ 被保留下来。因此，可以对性别构造一个 3*1 的 embedding 向量，然后通过 embedding lookup 得到系数。

对于 sparse 特征，按下面的代码构造输入：

# 这里单独对每一个 sparse 特征构造输入，
# 目的是方便后面构造交叉特征
sparse_inputs = []
for f in sparse_feats:
    _input = Input([1], name=f)
    sparse_inputs.append(_input)
    
sparse_1d_embed = []
for i, _input in enumerate(sparse_inputs):
    f = sparse_feats[i]
    voc_size = total_data[f].nunique()
    # 使用 l2 正则化防止过拟合
    reg = tf.keras.regularizers.l2(0.5)
    _embed = Embedding(voc_size, 1, embeddings_regularizer

最低0.47元/天解锁文章

VariableX

关注

3
点赞
踩
16

收藏

觉得还不错? 一键收藏
7
评论
【CTR模型】TensorFlow2.0 的 xDeepFM 实现与实战(附代码+数据)

本篇文章讲解 xDeepFM 的 tensorflow2.0 实现，并使用 Criteo 数据集的子集加以实践。如果在看本文时有所困惑，可以看看 xDeepFM 的相关理论：CTR 模型之 Deep & Cross (DCN) 与 xDeepFM 解读。本文使用的数据下载地址于代码获取地址在文末获取。首先了解一下 Criteo数据集，它由有39个特征，1个label列，其中以I开头的为数值型特征，以C开头的为类别特征：可以看到数据中有缺失值需要填充，并且类别变量需要进行类别编码(onehot
复制链接

扫一扫