挖掘原理|逻辑斯蒂回归原理

本文形象地解释了逻辑斯蒂回归的工作原理,通过实例展示了如何利用线性计算和sigmoid函数来确定样本点属于某一类别的概率。讨论了逻辑斯蒂回归中的概率计算函数以及参数优化方法,包括最大似然估计和优化算法的应用。
摘要由CSDN通过智能技术生成

形象理解逻辑斯蒂回归

在k邻近算法中,因为同一类的样本点总是表现出彼此之间距离相近,所以我们可以通过计算样本点之间的距离进行分类,那么换一个角度来思考,预测样本点所属类别也就是要判断这个样本点属于哪个类别的概率最大,即对于给定的特征向量 X \boldsymbol{X} X求其属于某一类别的概率 P ( Y = i ∣ X ) P(Y=i\mid \boldsymbol{X}) P(Y=iX),预测其分类,也就是逻辑斯蒂回归(LogisticRegression)。

或者我们可以更形象的理解,属于同一类别的样本点的分布是相近的,那么将其映射到某条曲线上的分布也应该是相近的,而我们学习的目的就是为了获取能够使映射之后的样本点同类别分布尽可能相近,不同类别之间尽可能远的这样一组参数。

我们以下面数据为例直观感受一下逻辑斯蒂回归
在这里插入图片描述
首先我们看数据的前三列,x1,x2表示两个特征,y表示所属类别,我们大致可以感受到相同类别的样本点之间分布应该很近,不妨看一下下面的图,更加直观。
在这里插入图片描述
黄色代表 y = 1 y=1 y=1的类,紫色代表 y = 0 y=0 y=0的类,这些样本点之间分布确实很明显的能分出类别.

再看数据表中的wx和p的值,这两列是经过逻辑斯蒂回归优化后得出的,对x1和x2进行线性计算之后的值,以及最终得出的 P ( Y = i ∣ X ) , i ∈ { 0 , 1 } P(Y=i\mid \boldsymbol{X}),i\in \{0,1\} P(Y=iX)i{ 0,1},可以看出经过线性计算的得出的值,属于类别1的值大概都是5.5左右,而属于类别0的值大概都是-2.5左右,概率也有着相近的特点,类别1的概率都是接近1,类别0都是接近0,再下图更能直观的表示这一点。
在这里插入图片描述

而数据表中的最后两列是,随意选取的线性计算的权重得出的值以及概率,可以看出,虽然不同类别之间却有差别,但是显然这样的差别远远不够,在预测时,错误率就会增加,所以我们要优化这些参数以降低损失。

逻辑斯蒂回归的原理

通过以上叙述,我们大概可以感受到,逻辑斯蒂回归(二分类)的运算流程,就是将特征值作为输入进行线性运算,然后将运算结果输入到某个函数中计算概率值,迭代的对参数进行优化。
所以以上流程就涉及到了两个问题:

  • 计算概率的函数
  • 优化线性计算中的权重参数

关于第一个问题
首先我们先来了解一下逻辑斯蒂分布:
X X X是连续随机变量,若 X X X具有如下分布函数和概率密度函数: F ( x ) = P ( X ≤ x ) = 1 1 + e − ( x − μ ) λ F(x)=P(X\leq x) = \frac{1}{1+e^{\frac{-(x-\mu)}{\lambda}}} F(x)=P(Xx)=

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

尘落心上

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值