推荐模型-上下文感知-2007:LR【逻辑回归模型】【CTR点击率预估,即预测给用户推送的广告会不会被用户点击】【无法进行自动特征交叉、筛选,需要人工特征工程】【准确率并不是很高】【需要人工特征组合】

Matthew Richardson et al. “Predicting Clicks Estimating the Click-Through Rate for New Ads.” in WWW 2007.

一、概述(逻辑回归—— 融合多种特征的推荐模型)

相比 “协同过滤” 模型仅利用用户与物品的相互行为信息进行推荐,逻辑回归模型能够综合利用用户、物品、上下文等多种不同的特征,生成较为“全面”的推荐结果。

另外,逻辑回归的另一种表现形式“感知机”作为神经网络中最基础的 单一神经元,是深度学习的基础性结构。因此,能够进行多特征融合的逻辑回归模型成了独立于协同过滤的推荐模型发展的另一个主要方向。

相比协同过滤和矩阵分解利用用户和物品的“相似度”进行推荐, 逻辑回归 将推荐问题看成一个分类问题,通过预测正样本的概率对物品进行排序。这里的 正样本可以是用户“点击” 了某商品,也可以是用户“观看” 了某视频,均是推 荐系统希望用户产生的“正反馈”行为

因此,逻辑回归模型将推荐问题转换成 了一个点击率( Click Through Rate, C T R ) 预估问题。

二、逻辑回归(LR)模型

逻辑回归算法(Logistics Regression,LR) 是一种基于回归分析的分类算法。

LR算法与线性回归算法非常相似,然而线性回归能够处理的是数值问题,而LR算法则是使用sigmoid函数将线性回归的分析结果转换为概率值。

LR算法是最简单和最快速的分类模型之一,在具有线性分离边界的数据集上表现良好,其表达式为
在这里插入图片描述
逻辑回归模型非常重要,在推荐领域里面,相比于传统的协同过滤,逻辑回归模型能够综合利用用户、物品、上下文等多种不同的特征生成较为“全面”的推荐结果

逻辑回归是在线性回归的基础上加了一个 Sigmoid 函数(非线形)映射,使得逻辑回归成为了一个优秀的分类算法, 学习逻辑回归模型,首先应该记住一句话:逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法,运用梯度下降来求解参数,来达到将数据二分类的目的

相比于协同过滤和矩阵分解利用用户的物品“相似度”进行推荐, 逻辑回归模型将问题看成了一个分类问题,通过预测正样本的概率对物品进行排序。这里的正样本可以是用户“点击”了某个商品或者“观看”了某个视频,均是推荐系统希望用户产生的“正反馈”行为, 因此逻辑回归模型将推荐问题转化成了一个点击率预估问题。而点击率预测就是一个典型的二分类, 正好适合逻辑回归进行处理,那么逻辑回归是如何做推荐的呢?

基于逻辑回归的推荐过程如下:

  1. 将用户年龄、性别、物品属性、物品描述、当前时间、当前地点等特征 转换成数值型特征向量。
  2. 确定逻辑回归模型的优化目标(以优化“点击率”为例),利用已有样 本数据对逻辑回归模型进行训练,确定逻辑回归模型的内部参数。
  3. 在模型服务阶段,将特征向量输入逻辑回归模型,经过逻辑回归模型的推断,得到用户“点击”(这里用点击作为推荐系统正反馈行为的例子)物品的 概率。
  4. 利用 “点击”概率对所有候选物品进行排序,得到推荐列表。

基于逻辑回归的推荐过程的重点在于,利用样本的特征向量进行模型训练和在线推断。推断过程可以用下图来表示:
在这里插入图片描述

三、逻辑向归模型的优势

在深度学习模型流行之前,逻辑回归模型曾在相当长的一段时间里是推荐系 统、计算广告业界的主要选择之一。除了在形式上适于融合不同特征,形成较“全 面”的推荐结果,其流行还有三方面的原因:

  1. 一是数学含义上的支撑;
  2. 二是可解 释性强;
  3. 三是工程化的需要。

优点:

  1. LR模型形式简单,可解释性好,从特征的权重可以看到不同的特征对最后结果的影响。
  2. 训练时便于并行化,在预测时只需要对特征进行线性加权,所以性能比较好,往往适合处理海量id类特征,用id类特征有一个很重要的好处,就是防止信息损失(相对于范化的 CTR 特征),对于头部资源会有更细致的描述
  3. 资源占用小,尤其是内存。在实际的工程应用中只需要存储权重比较大的特征及特征对应的权重。
  4. 方便输出结果调整。逻辑回归可以很方便的得到最后的分类结果,因为输出的是每个样本的概率分数,我们可以很容易的对这些概率分数进行cutoff,也就是划分阈值(大于某个阈值的是一类,小于某个阈值的是一类)

1 . 数学含义上的支撑

逻辑回归作为广义线性模型的一种,它的假设是因变量y 服从伯努利分布。 那么在CTR预估这个问题上,“点击”事件是否发生就是模型的因变量外而用 户是否点击广告是一个经典的掷偏心硬币问题。因此,CTR模型的因变量显然应 该服从伯努利分布。所以,采用逻辑回归作为CTR模型是符合“点击”这一事 件的物理意义的。

与之相比,线性回归作为广义线性模型的另一个特例,其假设是因变量y 服 从高斯分布,这明显不是点击这类二分类问题的数学假设。

2 .可解释性强

直观地讲,逻辑回归模型的数学形式是各特征的加权和,再 施以sigmoid函 数。在逻辑回归数学基础的支撑下,逻辑回归的简单数学形式也非常符合人类对 预估过程的直觉认知。

使用各特征的加权和是为了综合不同特征对CTR的影响,而不同特征的重 要程度不一样,所以为不同特征指定不同的权重,代表不同特征的重要程度。最 后,通过sigmoid函数,使其值能够映射到0 7 区间,正好符合CTR的物理意义。

逻辑回归如此符合人类的直觉认知显然有其他的好处—— 使模型具有极强 的可解释性。算法工程师可以轻易地根据权重的不同解释哪些特征比较重要,在CTR模型的预测有偏差时定位是哪些因素影响了最后的结果。在与负责运营、产 品的同事合作时,也便于给出可解释的原因,有效降低沟通成本。

3、工程化的需要

在互联网公司每天动辄TB级别的数据面前,模型的训练开销和在线推断效 率显得异常重要。在 GPU尚未流行的2012年之前,逻辑回归模型凭借其易于并 行化、模型简单、训练开销小等特点,占据着工程领域的主流。囿于工程团队的 限制,即使其他复杂模型的效果有所提升,在没有明显击败逻辑回归模型之前, 公司也不会贸然加大计算资源的投入,升级推荐模型或CTR模型,这是逻辑回 归持续流行的另一重要原因。

四、逻辑网归模型的局限性

逻辑回归作为一个基础模型,显然有其简单、直观、易用的特点。但其局限 性也是非常明显的:

  • 表达能力不强,无法进行特征交叉、特征筛选等一系列较为 “高级”的操作,因此不可避免地造成信息的损失。
  • 为解决这一问题,推荐模型 朝着复杂化的方向继续发展,衍生出因子分解机等高维的复杂模型。
  • 在进入深度 学习时代之后,多层神经网络强大的表达能力可以完全替代逻辑回归模型,让它 逐渐从各公司退役。
  • 各公司也将转而投入深度学习模型的应用浪潮之中。

逻辑回归模型也有一定的局限性:

  1. 表达能力不强, 无法进行自动特征交叉, 特征筛选等一系列“高级“操作(这些工作都得人工来干, 这样就需要一定的经验, 否则会走一些弯路), 因此可能造成信息的损失;
  2. 准确率并不是很高。因为这毕竟是一个线性模型加了个sigmoid, 形式非常的简单(非常类似线性模型),很难去拟合数据的真实分布;
  3. 处理非线性数据较麻烦。逻辑回归在不引入其他方法的情况下,只能处理线性可分的数据, 如果想处理非线性, 首先对连续特征的处理需要先进行离散化(离散化的目的是为了引入非线性),如上文所说,人工分桶的方式会引入多种问题。
  4. LR 需要进行人工特征组合,这就需要开发者有非常丰富的领域经验,才能不走弯路。这样的模型迁移起来比较困难,换一个领域又需要重新进行大量的特征工程。

所以如何自动发现有效的特征、特征组合,弥补人工经验不足,缩短LR特征实验周期,是亟需解决的问题, 而GBDT模型, 正好可以自动发现特征并进行有效组合

所以, 我们发现其实GBDT和LR的优缺点可以进行互补。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值