logistic regression 逻辑斯蒂回归(两类)

本文深入探讨了逻辑回归的基本原理,从伯努利分布出发,逐步推导出了逻辑函数的形成过程,并介绍了其在二分类问题中的应用。
摘要由CSDN通过智能技术生成

logistic regression 从字面上就可以看出,分类实际上也是一种特殊的回归。其与linear regression的不同是输出增加了一个非线性映射,映射到0-1,从而可以利用概率进行分类。

分类问题有很多种模型,包括logistic regression,SVM支持向量机,神经网络等等,logistic是分类问题中最基本的内容。很多教材上也有讲到。但是对logistic函数的来龙去脉讲的并不清楚,到底logistic函数是如何推导出来?我找了很多相关的资料,终于把线索渐渐理清。


在所有讨论之前,我们先把logistic regression二类分类的模型画出来吧,给大家一个直观的感受。


图0. logistic regression 二类分类模型

其中f代表sigmoid函数。可能大家会问了,既然是二类分类,为什么只有一个输出呢?答:假如输出的值是正例的概率,那么反例的概率自然可以由1-P(正例)算出来。所以只用一个变量就够了。好了接下来我们开始引入我们的问题。


问题

图中"+"代表样本值为1,"o"代表样本值为0,求它们的分界线。(来自这里,该页面提供文档及源码


图1

建立模型

图1中有N个样本,每个样本只能出现"+"或"o",因此每个样本 服从二项分布,设为正样本出现的出现的概率,二项分布可以写成这样:

         (1)

其中每个 是由 和 确定的

    (2)

那么函数f到底是具有什么样的形态呢?

我们知道二项分布属于exponential family(详见这篇博文),写成指数分布的好处有很多,包括求似然的时候连成可以变为连加等等。。

为了方便起见,我们先略去下标 ,(1)式可以写为

(3)

整理得

(4)

这一步步看似好像我们把(1)变复杂了,非也。现在它可以和exponential famility的标准形式比较一下

exponential family 标准形式:

(5)

我们对比(4)和(5),那么很自然的就有

(6)

也即

(7)

(7)式就是大名鼎鼎的logistic function啊!如是我们就把它推导出来了!

我们再简要的总结一下。能够(-∞,∞)映射到[0,1]的函数有很多,为什么我们就要用logistic函数呢?


原因:

(1)logistic function能让伯努利的指数分布是标准型式,更简洁。

(2)logistic function的求导很简洁,其它函数不行。

导数,多么简洁!


好了,中间我们插入了这么多,回过头来继续我们的分类问题。

将(7)代入(4),我们得到

(8)

由于的取值是(-∞,+∞),我们可以令,因此(8)可以写为

(9)

那么正反例的概率分别是


这和李航《统计学习方法》中逻辑斯蒂回归一节中是一致的,但该书并没有给出这两个公式怎么来的。


为了求解参数w, 我们对(1)式求最大似然,结合(1)(3)可得似然函数

(10)

这个式子很容易化简,得到

(11)

问题就转换成解这个最优化问题了。

我们同时把L关于w的导数也写在下面。

(12)

其中的定义如(7)。


模型求解

思路一:解析法可行吗?为了求w我们只需令(12)为0就可以了。很可惜,对于(12)没有解析解。(这点与linear regression不同)

思路二:迭代法求解。包括梯度下降法和牛顿法。在linear regression线性回归一文中有介绍。


最终得到结果



好了,我们已经成功解决了线性分类问题。那么万一不是线性可分怎么办?我们将在下一节中解决。


参考资料

【1】http://openclassroom.stanford.edu/MainFolder/DocumentPage.php?course=MachineLearning&doc=exercises/ex4/ex4.html (本文中例程及matlab源码来自这里)

【2】《Pattern Recognition and Machine Learning》第三四章,写的最本质,个人觉得最好的材料。下载这里

【3】《Machine Learning A Probabilistic Perspective》第七八九章,下载这里

【4】《统计学习方法》李航. 第六章。总结的很好,但是不够本质,没有给出公式的推导。看完【2】再看此书会很爽

### 逻辑回归概述 逻辑回归是一种广泛应用于二分类问题中的统计学模型,其核心在于通过估计给定输入变量下某个事件发生的概率来进行预测。该算法能够将连续型自变量映射到离散的概率空间内[^1]。 ### 数学表达式与假设函数 为了实现这一目标,逻辑回归采用Sigmoid函数作为链接函数: \[ h_\theta(x) = \frac{1}{1 + e^{-\theta^T x}} \] 其中\(h_\theta(x)\)代表当特征向量为\(x\)时属于某一类别(通常是正类)的概率值;而\(\theta\)则是待求解的学习参数向量。此公式表明随着线性组合\(\theta^Tx\)增大,输出结果趋向于1;反之则接近0[^2]。 ### 参数估计方法 在训练过程中,通常利用极大似然法来寻找最优参数集\(\hat{\theta}\),使得已知样本集中各观测点对应的标签与其预测得分之间的差异最小化。这可以被表述成如下最优化问题: \[ L(\theta)=\sum_{i=1}^{m}[y_i log(h_\theta(x_i))+(1-y_i)log(1-h_\theta(x_i))] \] 最大化上述对数似然函数即意味着找到最佳拟合数据分布规律的参数配置方案。 ### 多分类扩展策略 针对多分类任务,有两种常见方式可基于基础版本构建更复杂的解决方案——一对其余(OVR-One-vs-Rest)以及一对一(OVO-One-Vs-One)[^4]: #### One-vs-Rest (OvR) 对于每一个可能的结果类别k,在所有不属于此类别的实例集合中创建一个新的“负例”,并与原始类别内的成员构成新的二元分类子问题。最终通过对各个独立模型产生的置信度评分取最大值得出整体判定结论。 #### One-vs-One (OvO) 两两配对不同类型的样本来形成若干个单独的小规模对比实验环境。每当遇到新测试对象时便重复执行这些局部评估过程直至得出全局最优解为止。 ### 缺陷分析 尽管具有诸多优点,但逻辑回归也存在一些局限之处:它仅适用于处理线性可分的数据集,并且容易受到多重共线性和类别失衡现象的影响。此外,由于结构相对简单,因此难以捕捉复杂模式下的潜在关系特性[^3]。 ### 应用领域 逻辑回归因其高效稳定的表现而在众多实际应用场景中占据重要地位,特别是在点击率预估(CTR Estimation)、推荐系统排序(Learning To Rank For Recommender Systems)等方面表现尤为突出。例如某些大型互联网公司内部使用的广告投放平台就采用了这种技术作为默认的基础框架之一。 ```python import numpy as np from sklearn.linear_model import LogisticRegression from sklearn.datasets import make_classification from sklearn.model_selection import train_test_split # 创建模拟数据集 X, y = make_classification(n_samples=1000, n_features=20, random_state=42) X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.25, random_state=42) # 初始化并训练模型 clf = LogisticRegression(random_state=42).fit(X_train, y_train) # 输出性能指标 print(f'Training Accuracy: {clf.score(X_train, y_train):.3f}') print(f'Testing Accuracy : {clf.score(X_test , y_test ):.3f}') ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值