推荐系统笔记7-Deep Learning over Multi-field Categorical Data

本文介绍Deep Learning over Multi-field Categorical Data– A Case Study on User Response Prediction,包含Factorisation NN
和Sampling based NN,原文Paper链接

摘要:

预测用户回应(user response),例如CTR、CVR(转化率)在网页搜索、个性化推荐、在在线广告起着至关重要的作用;不同于图像和音频领域,网页空间的输入特征通常是离散和类别型的,并且依赖性也基本未知;原来要预测用户响应:线性模型(欠拟合)或手工设计高阶交互特征(计算量大);文章提出通过DNN来自动学习有效的类别特征交互模式,为了使DNN有效工作,利用三个特征转换方法FM(factorisation machines)、RBM(限制波尔兹曼机)、DAE(降噪自编码器);

一、介绍

一堆balabala,就是讲线性模型不能有效的学习出不明显的模式;FM和GBDT虽然能做特征组合,但是不能利用全部不同特征的组合;许多模型需要依靠特征工程和手工设计特征,并且大多数模型是浅层结构,泛化性能不好;
然后文章提出深度学习在图像、文本等的广泛应用,可以学习出局部特征并进而学习出高阶特征筛。但是对于CTR问题,存在多个领域并且都是类别特征(如城市、设备类型、广告类型),他们的局部依赖性是未知的,通过DNN来学习特征表示是很有前景的;文中提出方法Factorisation Machine supported Neural Network (FNN)Sampling-based Neural Network (SNN)。 其中FNN通过监督学习Embedding并用FM来将稀疏特征变成Dense特征,减少维度;SNN通过负采样方式,基于RBM或者DAE。

二、DNNs for CTR Estimation given Categorical Features

如图所示是一个4层的FNN结构:
在这里插入图片描述
输入类别特征是field-wise 的One-hot编码形式,只有一个值为1,其他为0;

2.1 Factorisation-machine supported Neural Networks (FNN)

FNN以FM为底层,如上图所示,从上到下描述这个网络:输出是一个sigmoid函数,然后接上两个全连接网络(使用tanh激活函数),这里解释一下Dense层z, z = ( w 0 , z 1 , z 2 , . . . , x i , . . . , z n ) z=(w_0,z_1,z_2,...,x_i,...,z_n) z=(w0,

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值