datawhale WIDE&DEEP学习笔记

最新推荐文章于 2021-04-13 14:10:37 发布

Hanxingjinyu

最新推荐文章于 2021-04-13 14:10:37 发布

阅读量200

点赞数

本文链接：https://blog.csdn.net/Hanxingjinyu/article/details/114946367

版权

datawhale WIDE&DEEP学习笔记

CTR就是广告点击率，click through rate
deepcrossing的特征交叉，是能够实现一种记忆能力的，它能够记住共现频率高的特征组合，但是不能基于此探索新的特征组合。针对前面的deepcrossing存在的：有一些特征没有被充分学习，因此产生的embedding 向量不准确，因此会导致模型泛化过度的问题，WIDE&DEEP这一模型就被引进，该模型围绕记忆性和泛化性，能从历史数据中学习到高频共现的特征组合。

模型的memorization：指的是模型能够从历史数据中学习高频出现的特征组合的能力。
模型的generalization：指的是模型能利用特征之间的传递性去探索新的特征组合。

wide%deep模型的结构原理

就是这个模型分为wide和deep两个部分，我们要有选择的将特征放入wide或者deep部分。
怎么样构建特征组合呢？比如说将是否是大学生和是否拥有爱奇艺会员作为两个特征，将其合并，那么只有同时满足是大学生和是爱奇艺会员这个新特征才是1，否则这个新特征的值就是0，这就实现了两个特征的组合。

在线学习
在线学习算法的特点就是每来一个训练样本，就用该样本产生的loss和梯度对模型迭代一次，一个一个数据地进行训练，因此可以处理大数据量训练和在线训练。常用的有在线梯度下降（OGD）和随机梯度下降（SGD）等，是对单个数据的损失函数进行梯度下降，但是并不是每一步的方向都是最优的。

wide层

wide层使用了FTRL算法，这个算法使得通过wide层的特征尽量少，也就是让wide部分尽量稀疏，因此能通过wide层的特征都属于很重要的特征，wide层输入的特征可能是单一特征也可以是组合特征。wide部分体现了模型的记忆能力，他提取的特征属于那种直接的、显然的关联规则。
wide层其实就是将已经存在的单一特征或者组合特征进行一种选择吧，现有的所有的特征能通过wide层的都必然会被保留着进入模型，这就体现出了模型的记忆能力，对原始特征的一种保留。

deep层

deep层就是深度学习模型，数值特征直接输入DNN，类别特征要经过embedding然后在输入模型。DEEP层体现出了wide&deep模型的一种泛化能力，因为我们可以知道，随着dnn模型层数增加，提取出的特征就越抽象，因此模型的泛化能力会越高。DNN模型作者使用了深度学习常用的优化器AdaGrad

wide与deep的结合

wide部分增强了模型的记忆能力，其保留了模型原来就有的那些单一特征或者组合特征；deep模型增强了模型的泛化能力，随着层数的增加，学习出来的特征就越抽象，这些特征就会增强模型的泛化性能。
因此wide&deep模型将这两部分输出的特征一起进行训练，使用一个逻辑回归做最终的预测，就会保持记忆和泛化能力。
因为Wide侧的数据是高维稀疏的，所以作者使用了FTRL算法优化，而Deep侧使用的是 Adagrad

FTRL算法
link
这个连接里面，对fobos,rda,ftrl都做了说明

ADAGRAD

思考题：
1、在你的应用场景中，哪些特征适合放在Wide侧，哪些特征适合放在Deep侧，为什么呢？
一些明显的直接的特征，能够发现高频、常见模式的特征应该放在wide层，但是如果我们想要从某些特征中学习出一些新特征，我们就要将其放入deep层。比如说预测广告的点击概率，性别、年龄、学历、地区和性别、、、这些就放入WIDE层，像是家里是否有老人、是否有小孩、每天工作时间、、、、这些想要从中提取出能帮助预测的特征的就将其放入deep层。
2、为什么Wide部分要用L1 FTRL训练？
应该是为了尽量让特征稀疏，筛选出那些最具有代表性的特征。
3、为什么Deep部分不特别考虑稀疏性的问题？
因为deep部分筛选出来的特征是一种抽象的特征，是为了从原来的特征里发现一些新的联系，从已经存在的特征里发现暗含的一种新特征，所以是不需要考虑特征的稀缺性的。

代码实现：

#导入需要的库
import warnings
warnings.filterwarnings("ignore")
import itertools
import pandas as pd
import numpy as np
from tqdm import tqdm
from collections import namedtuple

import tensorflow as tf
from tensorflow.keras.layers import *
from tensorflow.keras.models import *

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import  MinMaxScaler, LabelEncoder

from utils import SparseFeat, DenseFeat, VarLenSparseFeat

# 简单处理特征，包括填充缺失值，数值处理，类别编码
#dense_features指的是数值特征数据，sparse指的是类别型数据
def data_process(data_df, dense_features, sparse_features):
    data_df[dense_features] = data_df[dense_features].fillna(0.0)
    #这一步是为了实现数值的平滑
    for f in dense_features:
        data_df[f] = data_df[f].apply(lambda x: np.log(x+1) if x > -1 else -1)
        
    data_df[sparse_features] = data_df[sparse_features].fillna("-1")#补充缺失值
    for f in sparse_features:
        lbe = LabelEncoder()
        data_df[f] = lbe.fit_transform(data_df[f])
        #fit（）是为了求得训练集X的均值，方差，最大值，最小值,这些训练集X固有的属性
        #transform（）：在fit的基础上，进行标准化，降维，归一化等操作
        #fit_transform():部分数据先拟合fit，找到该part的整体指标，如均值、方差、
        #最大值最小值等等（根据具体转换的目的），然后对该trainData进行转换transform，从而实现数据的标准化、归一化等等。
    
    return data_df[dense_features + sparse_features]


##这步其实就是输出字典查看我们一共有多少个原始的特征
def build_input_layers(feature_columns):
    """
    构建输入层
    param feature_columns: 数据集中的所有特征对应的特征标记值
    """
    # 构建Input层字典，并以dense数值型特征和sparse类型特征两类字典的形式返回
    dense_input_dict, sparse_input_dict = {}, {}

    for fc in feature_columns:
        if isinstance(fc, SparseFeat):
            sparse_input_dict[fc.name] = Input(shape=(1, ), name=fc.name)
        elif isinstance(fc, DenseFeat):
            dense_input_dict[fc.name] = Input(shape=(fc.dimension, ), name=fc.name)
        
    return dense_input_dict, sparse_input_dict


##embedding层只是输入类别特征，数值型特征是不进行embedding的
##embedding层将类别特征进行探索，发现这些特征的内在关系，这是一种泛化性的提升
def build_embedding_layers(feature_columns, input_layers_dict, is_linear):
    # 定义一个embedding层对应的字典
    embedding_layers_dict = dict()
    
    # 将特征中的sparse特征筛选出来
    sparse_feature_columns = list(filter(lambda x: isinstance(x, SparseFeat), feature_columns)) if feature_columns else []
    
    # 如果是用于线性部分的embedding层，其维度为1，否则维度就是自己定义的embedding维度
    if is_linear:
        for fc in sparse_feature_columns:
            embedding_layers_dict[fc.name] = Embedding(fc.vocabulary_size + 1, 1, name='1d_emb_' + fc.name)
    else:
        for fc in sparse_feature_columns:
            embedding_layers_dict[fc.name] = Embedding(fc.vocabulary_size + 1, fc.embedding_dim, name='kd_emb_' + fc.name)
    
    return embedding_layers_dict


# 将所有的sparse特征embedding拼接
def concat_embedding_list(feature_columns, input_layer_dict, embedding_layer_dict, flatten=False):
    # 将sparse特征筛选出来
    sparse_feature_columns = list(filter(lambda x: isinstance(x, SparseFeat), feature_columns))

    embedding_list = []
    for fc in sparse_feature_columns:
        _input = input_layer_dict[fc.name] # 获取输入层 
        _embed = embedding_layer_dict[fc.name] # B x 1 x dim  获取对应的embedding层
        embed = _embed(_input) # B x dim  将input层输入到embedding层中

        # 是否需要flatten, 如果embedding列表最终是直接输入到Dense层中，需要进行Flatten，否则不需要
        if flatten:
            embed = Flatten()(embed)
        
        embedding_list.append(embed)
    
    return embedding_list 

# DNN残差块的定义
class ResidualBlock(Layer):
    def __init__(self, units): # units表示的是DNN隐藏层神经元数量
        super(ResidualBlock, self).__init__()
        self.units = units

    def build(self, input_shape):
        out_dim = input_shape[-1]
        self.dnn1 = Dense(self.units, activation='relu')
        self.dnn2 = Dense(out_dim, activation='relu') # 保证输入的维度和输出的维度一致才能进行残差连接
    def call(self, inputs):
        x = inputs
        x = self.dnn1(x)
        x = self.dnn2(x)
        x = Activation('relu')(x + inputs) # 残差操作
        return x
    
    
# block_nums表示DNN残差块的数量
def get_dnn_logits(dnn_inputs, block_nums=3):
    dnn_out = dnn_inputs
    for i in range(block_nums):
        dnn_out = ResidualBlock(64)(dnn_out)
    
    # 将dnn的输出转化成logits
    dnn_logits = Dense(1, activation='sigmoid')(dnn_out)

    return dnn_logits


def DeepCrossing(dnn_feature_columns):
    # 构建输入层，即所有特征对应的Input()层，这里使用字典的形式返回，方便后续构建模型
    dense_input_dict, sparse_input_dict = build_input_layers(dnn_feature_columns)
    # 构建模型的输入层，模型的输入层不能是字典的形式，应该将字典的形式转换成列表的形式
    # 注意：这里实际的输入与Input()层的对应，是通过模型输入时候的字典数据的key与对应name的Input层
    input_layers = list(dense_input_dict.values()) + list(sparse_input_dict.values())
    
    # 构建维度为k的embedding层，这里使用字典的形式返回，方便后面搭建模型
    embedding_layer_dict = build_embedding_layers(dnn_feature_columns, sparse_input_dict, is_linear=False)

    #将所有的dense特征拼接到一起
    dense_dnn_list = list(dense_input_dict.values())
    dense_dnn_inputs = Concatenate(axis=1)(dense_dnn_list) # B x n (n表示数值特征的数量)

    # 因为需要将其与dense特征拼接到一起所以需要Flatten，不进行Flatten的Embedding层输出的维度为：Bx1xdim
    sparse_dnn_list = concat_embedding_list(dnn_feature_columns, sparse_input_dict, embedding_layer_dict, flatten=True) 

    sparse_dnn_inputs = Concatenate(axis=1)(sparse_dnn_list) # B x m*dim (n表示类别特征的数量，dim表示embedding的维度)

    # 将dense特征和Sparse特征拼接到一起
    dnn_inputs = Concatenate(axis=1)([dense_dnn_inputs, sparse_dnn_inputs]) # B x (n + m*dim)

    # 输入到dnn中，需要提前定义需要几个残差块
    output_layer = get_dnn_logits(dnn_inputs, block_nums=3)

    model = Model(input_layers, output_layer)
    return model
if __name__ == "__main__":
    # 读取数据
    data = pd.read_csv('./data/criteo_sample.txt')

    # 划分dense和sparse特征
    columns = data.columns.values
    dense_features = [feat for feat in columns if 'I' in feat]
    sparse_features = [feat for feat in columns if 'C' in feat]

    # 简单的数据预处理
    train_data = data_process(data, dense_features, sparse_features)
    train_data['label'] = data['label']

    # 将特征做标记
    dnn_feature_columns = [SparseFeat(feat, vocabulary_size=data[feat].nunique(),embedding_dim=4)
                            for feat in sparse_features] + [DenseFeat(feat, 1,)
                            for feat in dense_features]

    # 构建DeepCrossing模型
    history = DeepCrossing(dnn_feature_columns)

    history.summary()
    history.compile(optimizer="adam", 
                loss="binary_crossentropy", 
                metrics=["binary_crossentropy", tf.keras.metrics.AUC(name='auc')])

    # 将输入数据转化成字典的形式输入
    train_model_input = {name: data[name] for name in dense_features + sparse_features}
    # 模型训练
    history.fit(train_model_input, train_data['label'].values,
            batch_size=64, epochs=5, validation_split=0.2, )