个性化推荐算法实战第08章浅层排序模型逻辑回归

本文链接：https://blog.csdn.net/qintian888/article/details/100788425

本章节介绍逻辑回归模型在点击率预估中的应用，包括模型背景、数学原理、样本选择与特征构建。逻辑回归是一种二分类模型，常用于点击率预估。文章深入探讨了LR模型的工作流程、损失函数、梯度下降，以及正则化方法，强调了样本选择和特征工程的重要性。

摘要由CSDN通过智能技术生成

文章目录

第08章浅层排序模型逻辑回归

第08章浅层排序模型逻辑回归

本章节重点介绍点击率预估模型，逻辑回归模型，以及选取实例数据集，从特征选择到模型训练、模型评估等几个方面来代码实战逻辑回归模型。

本章节重点介绍一种排序模型，逻辑回归模型。从逻辑回归模型的背景知识与数学原理进行介绍。并介绍样本选择与特征选择相关知识。最后结合公开数据集。代码实战训练可用的逻辑回归模型。

逻辑回归模型的背景介绍

一、LR（logistic regression逻辑回归）背景知识介绍

将会介绍什么是点击率预估、什么是分类模型以及LR模型的基本使用流程、LR模型的基本训练流程，从这几个方面介绍LR的背景知识。

1. 点击率预估与分类模型

什么是点击率预估呢？

相信点击率的概念大家都知道，在系统中，点击率 = 点击的数目 / 总展现的数目，而点击率预估就是针对特定的用户在当前上下文结合用户当前的特征给出的item可能被点击的概率，预估方法可以是一些简单的规则也可以是使用模型，目的就是得到不同的item在此时应该被展现的顺序关系。

点击率预估在推荐、搜索、广告领域都被广泛使用。

那么什么是分类模型呢？

用一个简单的例子进行讲解：假如去菜市场买牛肉，这个牛肉可以称之为新鲜或者不新鲜，我们之前的判断就是根据这个肉的时间。假如有一个模型可以再牛肉到来的时候就给出标签，是新鲜或者不新鲜，那么这样的一个模型就是一个分类模型，而且是一个二分类，因为这里的label只有新鲜或者不新鲜。

当然，这个分类模型也可以是多分类，如果说这个label有很多个，那么便是多分类。我们这里讲的点击率预估实际也是一个二分类问题，因为，点了样本就是1，没点就是0。就在这两类之间，我们会给出每一个样本预估出它倾向1的概率，基于次概率的大小决定了此item的展现顺序。

2. 什么是LR？

假设二维空间中有一些数据点，我们想用一条直线来拟合这些数据点经过的路径，这便是回归。但是，LR是一个分类模型，需要在样本进入模型之后给出分类标签。

所以LR对于回归得到的数值会进行一个处理，使之变成0,1这样的标签。这个梳理就是将得到的数值输入到一个函数中，这个函数就是单位阶跃函数，后面会详细讲解这个函数。

这里说的二维空间是只有一个特征的，用在之前讲解的牛肉是不是新鲜这个案例里，这个特征就是时间。那么如果扩展到三维空间中，可以再加入一个特征，比如说这个牛肉的含水量。那么这个时候，可能就不是用一条直线，而是用一个面来拟合整体样本经过的路径。

3. sigmoid函数：单位阶跃函数

这个函数有一个特点，那就是输入为0的时候，值为0.5，但是输入>0 的部分，很快便逼近于1，输入 < 0 的部分，很快便逼近于0，所以称之为阶跃函数。

这样的函数，很少有在中间的部分，所以可以很容易的分辨出是1还是0，正好符合0、1分类模型的要求。

4. LR模型的工作流程

前面介绍过LR模型的主体流程是：首先对数据进行一个拟合，不管是二维空间里 y = k * x + b 这样的直线，还是三维空间里y = a1 * x1 + b2 * x2 + c 这样的平面，亦或是更高维度我们需要学习更多的参数。像y = k * x + b 中的k、b，像三维空间里我们用平面 y = a1 * x1 + b2 * x2 + c 这里面的a1、b2、c这样的参数都是我们需要学习的。学习完这些参数之后，也就得到了模型。得到模型之后，用参数与输入的特征进行相乘，同时将得到的数值放入前面介绍过的单位阶跃函数中得到类别。

下面用具体的例子，详细介绍一下具体的工作流程：
在这里插入图片描述

这里是三个训练数据，训练数据的label就是女朋友是不是开心。我们看到这是一个二分类问题，女朋友开心，label就是1；女朋友不开心，那么label就是0。同时这里每一个训练样本都有三个特征，分别是买礼物、说早安、陪吃饭。

样本1 是买了礼物，说了早安，陪了吃饭，那么女朋友是开心的。

样本2 是没有买礼物，没有说早安，陪了吃饭，女朋友是不开心的。

样本3 是买了礼物，说了早安，，没有陪吃饭，女朋友是开心的。

这里的目标是通过这三个样本，学习出一个LR的模型，然后能够通过这个模型，帮助我们预测女朋友是否开心。我们需要学习的参数是什么呢？很明显就是 a * x1 + b * x2 + c * x3，这里的a、b、c这三个参数，在得到了这三个参数之后，在接下来的某一天，我们将买没买礼物，说没说早安，有没有陪吃饭带入到这个公式中，也便能够自己知道女朋友是否开心。

以上就是LR模型的工作流程

5. LR模型的整体训练流程

（1）从log中获取训练样本与特征

在工业界中，样本与特征都不会是处理好的，我们需要自己从日志中，根据需要去提取。比如在推荐系统中，我们可能有展示日志，有点击日志，有基于点击统计User Profile,也有入库时就获得的item info信息。首先，我们需要判断，哪些展现，哪些点击是需要的，也就是样本选择。因为，有很多样本含有脏数据，我们需要去除掉。

其次，我们需要判断我们需要的是用户的哪些特征。比如说用户的年龄、性别，或者是item的哪些特征，比如item的种类、item的title、item的时长等等。这就是特征选择。

（2）模型的参数学习

获取了样本与特征之后，需要决定模型学习的学习率，是否正则化，以及选用哪一种正则化的方式，同样还有学习的方法等等参数设定。

得到了模型之后，同样需要进行离线评估。

这里面包含了模型本身的指标，还有模型应用到测试集中的指标，来看一下我们的模型是否可用。如果模型可用，需要将模型实例化。

（3）模型预测

这里的预测包含可能是将已经实例化的模型录入到内存中提供服务，也可能是基于已经实例化好的模型再搭建一个模型的服务。

预测部分需要将待预测的数据集带入到训练格式去抽取特征，抽取完特征的待预测的样本放入到模型中便能得到预测的结果。