【学习笔记】二元Logistic回归预测

1.基本含义和思想

Logistic回归和线性回归最大的区别在于,Y的数据类型。线性回归分析的因变量Y属于定量数据,而Logistic回归分析的因变量Y属于分类数据。分类数据指的是,Y的结果不是一个值(量),而是一个类别,比如一件衣服的是否有人想购买?这里的Y是“是否愿意购买”,属于分类数据。如果Y值仅两个选项,分别是有和无之类的分类数据,选择二元Logistic回归分析。

因此,逻辑回归(Logistic regression)是一种基于因变量为二项分布的广义线性模型,当需要通过一系列连续型或类别型预测变量来预测二值型结果时是一个非常有用的工具。

逻辑回归之所以能轻松解决分类问题,仅仅是在一般线性回归模型的基础上采用了Logistic 函数。Logistic 函数又称为 Sigmoid 函数,函数形式为:
在这里插入图片描述
因此,使用 Logistic 函数将自变量映射到(0,1)上。

2.论文[3]进行回归预测的思路是什么?

已知某个特定用户在某两个相邻的支付时刻之间,所有的点击、收藏和加购物车的累计次数,作为解释变量(可以理解为自变量),是否有支付行为作为被解释变量(可以理解为因变量),我们要做的就是根据已知数据建立模型p= y (x1,x2,…,xn),p是支付的概率,建立模型的过程就是求解Logistic函数中参数的过程,最终通过迭代得到完整的Logistic函数,便能够根据该模型,通过下一阶段用户的点击、收藏和加购物车的次数预测该用户进行支付动作的概率。

因此最重要的就是如何建立该模型,也就是Logistic函数,即求参数,下面开始详细讨论。

3.求逻辑回归模型的数学过程

3.1 改写函数

首先,改写z,令其等于自变量的线性组合的形式,如下:
在这里插入图片描述
令wT=(β1, β2, …, βn),x=(x1,x2,…,xn)T,b=β0,进行步骤3.2

3.2 函数变换

下面对Sigmoid函数进行变换,参考周志华所著《机器学习》:
在这里插入图片描述

那么对数几率就有如下形式:
在这里插入图片描述

周志华在书中提到:由此可看出,式(3.18)实际上是在用线性回归模型的预测结果去逼近真实标记的对数几率,因此,其对应的模型称为"对数几率回归" (logistic regression,亦称logit regression)。

3.3 得到离散概率

继续参考《机器学习》的步骤:
在这里插入图片描述
(3.23)其实就等价于(3.17)的形式,简单变换了一下。
记βT=(wT;b)=(β1, β2, …, βn, b);
x┴∧ =(x;1)T=(x1,x2,…,xn,1)T
记(3.23)为p1,(3.24)为p0
将两式合并得到:
在这里插入图片描述
求对数,并整理得到(*)式:
在这里插入图片描述

3.4 最大似然法

因此,开始运用最大似然估计法求取未知量β,其思想是使得观测数据(样本)发生概率最大的参数就是最好的参数。
给定数据集:
在这里插入图片描述
那么似然函数就应该是这些观测值均发生的概率的乘积,使其最大。但为了求解方便,我们通常会将似然函数转成对数似然函数,然后再求解(可以转成对数似然函数的主要原因是对数函数并不影响函数的凹凸性)。写出似然函数如下:
在这里插入图片描述
将步骤3.3的(*)式代入并取相反数得()式:
在这里插入图片描述
问题转化为求(
)式的最小值。

3.5 牛顿法

接着利用经典的数值优化算法如梯度下降法(gradient descent method) 、牛顿法(Newton method)等都可求得其最优解。

牛顿法的思想:基本牛顿法是一种是用导数的算法,它每一步的迭代方向都是沿着当前点函数值下降的方向。即通过求解目标函数一阶导为零的参数值,进而求得目标函数最小值。

梯度下降法的思想:梯度是函数在某点处的一个方向,并且沿着该方向变化最快,变化率最大。因此梯度下降的方向就是在该点处使值变小最快的方向。

参照《机器学习》有:
在这里插入图片描述
至此,可以求出模型中的β,也就是所有的参数了。

4.逻辑回归在论文[3]中的应用

对于论文[3]提到的数据集,其中x1, x2, x3即为cl(click点击),fa(favorite收藏),ca(cart加入购物车)在两个支付行为之间的累计操作次数,pa为是否支付(1为支付,0为未支付)因此有如下公式:
在这里插入图片描述
利用上述方法进行编程计算就可以求出所有的未知参数,得到回归模型,从而对于输入x=(cl,fa,ca),可以得到输出p(pa=1),即支付的概率,达到预测的目的。

参考文章

Logistic回归(Logistic Regression):
https://www.jianshu.com/p/5631698e8379

二元逻辑回归实现鸢尾花数据分类(python):
https://www.jianshu.com/p/ca1e295813b8

最小二乘法原理(后):梯度下降求权重参数:
https://mp.weixin.qq.com/s?__biz=MzI3NTkyMjA4NA==&mid=2247484070&idx=1&sn=98e6d2386d3d4d2db2afc35ef163b406&chksm=eb7c2f6ddc0ba67b925f435c391278e21ce56c073551e1939805e30570e1ade263e7395fda6f&scene=21#wechat_redirect

深度学习—— 最小二乘法 & 极大似然估计 & 梯度下降法:
https://blog.csdn.net/qq_34872215/article/details/88302532

参考文献

[3]唐慧祥,常啸,宋来敏.基于数据挖掘的淘宝精准营销策略研究[J].哈尔滨师范大学自然科学学报,2020,36(03):19-24.

[17]马姝.基于数据挖掘的消费者购买预测的研究[D].云南财经大学,2016.

[18]周志华. 机器学习 : = Machine learning[M]. 清华大学出版社, 2016.

  • 6
    点赞
  • 58
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 二元logistic回归是一种常用的统计分析方法,可以用来预测二元变量的概率。在SPSS软件中,可以通过以下步骤进行二元logistic回归预测: 1. 打开SPSS软件,导入需要分析的数据集。 2. 选择“分析”菜单中的“回归”选项,然后选择“二元logistic回归”。 3. 在“二元logistic回归”对话框中,选择需要预测二元变量作为因变量,选择一些可能影响该变量的自变量,并将它们添加到模型中。 4. 点击“统计”按钮,选择需要输出的统计信息,例如模型拟合度、分类表、ROC曲线等。 5. 点击“确定”按钮,SPSS将自动进行二元logistic回归分析,并输出相应的结果。 通过以上步骤,可以使用SPSS进行二元logistic回归预测,并得到相应的分析结果。 ### 回答2: 二元logistic回归是一种分类分析方法,通过将数据与一个S形曲线拟合来预测一个分类变量的可能性。在SPSS中,二元logistic回归模型可以用于预测一个二分类问题,如疾病的存在与否、产品的销售成功与失败等。 使用SPSS进行二元logistic回归预测需要执行以下步骤: 1. 打开SPSS软件并点击菜单栏中的“分析”选项,选择“回归”子项,再选择“二元logistic回归”。 2. 在弹出的“二元logistic回归”对话框中,将要预测的二分类变量放入“因变量”框中,将与之相关的自变量放入“自变量”框中。 3. 点击“模型”选项卡,可以选择模型的建立方法,包括回归、向前选择、向后选择、逐步选择等,建议先进行回归的基础模型拟合,再根据需要进行模型优化。 4. 在“选项”选项卡中,可以选择输出的结果包括模型信息、参数估计值、标准误差、置信区间、偏差统计、模型拟合优度、变量重要性等等。 5. 点击“确定”按钮开始计算预测模型,SPSS会自动输出各项预测结果。可以根据需要修改自变量,重新进行模型拟合,以获得更准确的预测结果。 需要注意的是,二元logistic回归预测需要有一定的统计背景知识,理解数据的分布规律、变量间的相关性等,才能正确应用这一方法。同时,在多数情况下,二元logistic回归预测结果需要进一步通过实际检验和分析确认其准确性和可靠性。 ### 回答3: 二元逻辑回归是一种统计学习方法,应用于解决分类问题。它主要适用于因变量只有两种取值情况的情况下,可以通过建立一个数学模型,通过给定的自变量来进行分类预测。在SPSS中,使用二元逻辑回归进行预测需要按照以下步骤进行: 第一步,打开SPSS软件,并导入数据,确保数据格式正确。 第二步,选择“分析”菜单下的“回归”选项,再选择“二元逻辑回归”,并将所需分析变量放入“因变量”和“自变量”的栏目中。 第三步,通过“分类阈值”选项来设置分类的默认阈值,这个默认阈值可以根据实际需要进行调整。 第四步,进行模型拟合,可以根据实际情况调整步长和最大迭代次数等参数来确保拟合效果的稳定性。 第五步,模型测试,通过“预测分析”选项来进行测试,检查结果的准确性。 最后,进行分析和结果解释,评估模型预测效果,得到分类结果,根据结果进行相关的决策。 在进行二元逻辑回归预测过程中,还需要注意一些问题: 首先是数据收集,需要保证数据的质量和可靠性,如果数据不足或者数据质量较差,则预测效果可能会出现偏差。 其次是模型的建立,需要根据实际情况进行参数的选择和调整,保证模型的稳定性和可靠性。 最后是结果的解释和应用,需要根据实际情况进行结果的分析和应用,得到正确的结论和决策。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值