Deep Crossing: Web-Scale Modeling without Manually Crafted Combinatorial Features【论文记录】

交叉特征有很好的效果,但人工组合发现有意义的特征很难
深度学习可以不用人工挖掘特征,还可以挖掘到专家都没找到的高阶特征
特色在于残差单元的使用,特征的表示

1 摘要

  • automatically combines features to produce superior models
    自动组合特征以产生出色的模型

  • achieve superior results with only a sub-set of the features used in the production models.
    仅使用生产模型中使用的特征的子集即可获得出色的结果。

2 Sponsored Search

  • Sponsored search is responsible for showing ads alongside organic search results
    Sponsored Search 负责与自然搜索结果一起展示广告
概念 含义
Query 用户在搜索框中输入的文本字符串
Keyword 广告商指定的与产品相关的文本字符串,以匹配用户查询
Title 广告客户指定的赞助广告标题,以吸引用户的注意
Landing page(登录页面) 当用户点击相应的广告时,用户访问的产品网站
Match type 提供给广告客户的选项,可以让用户查询关键字与关键字的匹配程度如何,通常为以下四种之一:精确,词组,广泛和上下文
Campaign 一组具有相同设置(如预算和位置定位)的广告,通常用于将产品分类
Impression(展品) 向用户显示的广告实例。通常会在运行时记录展品以及其他可用信息
Click 用户是否点击了展品的指标。 通常会在运行时记录一次单击以及其他可用信息
Click through rate 总点击次数超过总展示次数
Click Prediction 平台的关键模型,可预测用户针对给定查询点击给定广告的可能性

3 特征表示

  • Simply converting campaign ids into a onehot vector would significantly increase the size of the model.
    只将广告系列 ID 转化为 onehot 向量,就会大大增加模型的大小

    • One solution is to use a pair of companion features as exemplified in the table, where CampaignID is a one-hot representation consisting only of the top 10, 000 campaigns with the highest number of clicks.
      一种解决方案是使用表中示例的一对广告特征,CampaignID 是只包含点击次数最高的前 10,000 个广告的 onehot 表示
      individual features

    • Other campaigns are covered by CampaignIDCount, which is a numerical feature that stores per campaign statistics such as click through rate. Such features will be referred as a counting feature in the following discussions
      其他广告由 CampaignIDCount 包含,CampaignIDCount 是一个数字特征,可存储每个广告的统计信息,例如点击率。 在以下讨论中,此类功能将被称为计数特征。

  • Deep Crossing avoids using combinatorial features. It works with both sparse and dense individual features
    Deep Crossing 不使用特征组合。 它可以同时处理稀疏和密集的个体特征

4 模型结构

Deep Crossing模型结构

  • The objective function is log loss but can be easily customized to soft-max or other functions
    目标函数是 log 损失函数,但也能定义为 softmax 或其他函数
     logloss  = − 1 N ∑ i = 1 N ( y i log ⁡ ( p i ) + ( 1 − y i ) log ⁡ ( 1 − p i ) ) (1) \text { logloss }=-\frac{1}{N} \sum_{i=1}^{N}\left(y_{i} \log \left(p_{i}\right)+\left(1-y_{i}\right) \log \left(1-p_{i}\right)\right) \tag{1}  logloss =N1i=1N(yilog(p
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值