逻辑回归的原理与实践

最新推荐文章于 2024-04-02 11:15:57 发布

nano-

最新推荐文章于 2024-04-02 11:15:57 发布

阅读量1.1k

点赞数

分类专栏：机器学习文章标签：逻辑回归机器学习

本文链接：https://blog.csdn.net/qq_38235178/article/details/108058076

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

学习目标

了解逻辑回归的理论
掌握逻辑回归的sklearn函数调用并将其运用到鸢尾花数据集预测

逻辑回归的应用

逻辑回归模型广泛用于各个领域，包括机器学习，大多数医学领域和社会科学。例如，最初由Boyd等人开发的创伤和损伤严重度评分（TRISS）被广泛用于预测受伤患者的死亡率，使用逻辑回归基于观察到的患者特征（年龄，性别，体重指数，各种血液检查的结果等）分析预测发生特定疾病（例如糖尿病，冠心病）的风险。逻辑回归模型也用于预测在给定的过程中，系统或产品的故障的可能性。还用于市场营销应用程序，例如预测客户购买产品或中止订购的倾向等。在经济学中它可以用来预测一个人选择进入劳动力市场的可能性，而商业应用则可以用来预测房主拖欠抵押贷款的可能性。

逻辑回归模型现在同样是很多分类算法的基础组件，比如分类任务中基于GBDT+LR实现的信用卡交易反欺诈，CTR(点击通过率)预估等，其好处在于输出值自然地落在0到1之间，并且有概率意义。模型清晰，有对应的概率学理论基础。它拟合出来的参数就代表了每一个特征(feature)对结果的影响。也是一个理解数据的好工具。但同时由于其本质上是一个线性的分类器，所以不能应对较为复杂的数据情况。很多时候我们也会拿逻辑回归模型去做一些任务尝试的基线。

逻辑回归原理简介

逻辑回归，该模型的输出变量范围始终在 0 和 1 之间。

逻辑回归模型的假设是：

$h_{\theta }\left ( x \right )= g\left ( \theta ^{T}X \right )$

其中： X 代表特征向量， g 代表逻辑函数(logistic function)，一个常用的逻辑函数为 S 形函数(Sigmoid function)，公式为：

$g\left ( z \right )= \frac{1}{1+e^{-z}}$

该函数的图像为：

$h_{\theta }\left ( x \right )$ 的作用是，对于给定的输入变量，根据选择的参数计算输出变量等于1的可能性(estimated probablity)即：

$h_{\theta }\left ( x \right )=P\left ( y=1\mid x;\theta \right )$

例如，如果对于给定的 x ，通过已经确定的参数计算得出 $h_{\theta }\left ( x \right )=0.7$ ，则表示有 70% 的几率 x 为正类，相应地 x 为负类的几率为 $1-0.7=0.3$ 。

在逻辑回归中，我们预测：

当 $h_{\theta }\left ( x \right )\geq 0.5$ 时，预测 $y=1$ ；

当 $h_{\theta }\left ( x \right )< 0.5$ 时，预测 $y=0$ ；

根据上面绘制出的Sigmoid函数图像，我们知道：

当 $z=0$ 时， $g\left ( z \right )=0.5$ ；

当 $z>0$ 时， $g\left ( z \right )>0.5$ ；

当 $z<0$ 时， $g\left ( z \right )<0.5$ ；

又 $z=\theta ^{T}x$ ，即：

$\theta ^{T}x\geq 0$ 时，预测 $y=1$ ；

$\theta ^{T}x< 0$ 时，预测 $y=0$ ；

因为各个观测样本之间相互独立，那么它们的联合分布为各边缘分布的乘积。得到似然函数为：

$L\left ( \theta \right )=\prod_{i=1}^{m}h_{\theta }\left ( x_{i} \right )^{y_{i}}\left [ 1-h_{\theta }\left ( x_{i} \right ) \right ]^{1-y_{i}}$

接下来我们的目标就是求解似然函数的最大值，对上式两边取对数，得到：

$ln\left [ L\left ( \theta \right ) \right ] = \sum_{i=1}^{m} y_{i} ln\left [ h_{\theta } \left ( x_{i} \right ) \right ] + \left ( 1-y_{i} \right ) ln\left [ 1-h_{\theta } \left ( x_{i} \right ) \right ]$

所以，我们就可以构造Loss Functionl如下式：

$J\left ( \theta \right ) = -\frac{1}{m} \sum_{i=1}^{m} y_{i} ln\left [ h_{\theta } \left ( x_{i} \right ) \right ] + \left ( 1-y_{i} \right ) ln\left [ 1-h_{\theta } \left ( x_{i} \right ) \right ]$

加上 $-\frac{1}{m}$ ，求解 $J\left ( \theta \right )$ 的最小值，也就是求解似然函数的最大值，主要是为了方便后面的梯度下降法。所以使用梯度下降法求解，其更新函数为：

$\theta _{j} : = \theta _{j} -\alpha \frac{\partial }{\partial \theta } J\left ( \theta \right )$

而

$\frac{\partial }{\partial \theta } J\left ( \theta \right ) = \frac{1}{m} \sum_{i=1}^{m} \left [ h_{\theta } \left ( x_{i} \right ) -y_{i} \right ] x_{i}^{j}$

为什么LR需要归一化或者取对数？

如上图所示，蓝色的圈代表的是两个特征的等高线。其中左图两个特征 $x_{1}$ 和 $x_{2}$ 的区间相差非常大， $x_{1}$ 的区间为[0,2000]， $x_{2}$ 的区间为[1,5]，其所形成的等高线呈椭圆形。当使用梯度下降法寻求最优解时，很有可能振荡收敛，从而导致需要迭代很多次才能收敛；

而右图对两个原始特征进行了归一化，其对应的等高线呈正圆形，在梯度下降进行求解时能较快的收敛。

因此如果机器学习模型使用梯度下降法求最优解时，归一化往往非常有必要，否则收敛速度缓慢甚至不能收敛。

归一化的类型

1.线性归一化

$x'=\frac{x-\min \left ( x \right ) }{\max \left ( x \right ) - \min \left ( x \right ) }$

这种归一化方法比较适用在数值比较集中的情况。这种方法有个缺陷，如果 max 和 min 不稳定，很容易使得归一化结果不稳定，使得后续使用效果也不稳定。实际使用中可以用经验常量值来替代 max 和 min 。

2.标准差标准化

经过处理的数据符合标准正态分布，即均值为 0 ，标准差为 1 ，其转化函数为：

$x^{*}=\frac{x-\mu }{\sigma }$

其中 μ 为所有样本数据的均值， σ 为所有样本数据的标准差。

3.非线性归一化

经常用在数据分化比较大的场景，有些数值很大，有些很小。通过一些数学函数，将原始值进行映射。该方法包括 log、指数，正切等。需要根据数据分布的情况，决定非线性函数的曲线，比如 $log(V, 2)$ 还是 $log(V, 10)$ 等。

为什么LR把特征离散化后效果更好？离散化的好处有哪些？

逻辑回归属于广义线性模型，表达能力受限；

在工业界，很少直接将连续值作为逻辑回归模型的特征输入，而是将连续特征离散化为一系列0、1特征交给逻辑回归模型，这样做的优势有以下几点：

逻辑回归属于广义线性模型，表达能力受限；单变量离散化为N个后，每个变量有单独的权重，相当于为模型引入了非线性，能够提升模型表达能力，加大拟合；
离散化后可以进行特征交叉，由 M+N 个变量变为 M*N 个变量，进一步引入非线性，提升表达能力；
特征离散化以后，起到了简化逻辑回归模型的作用，降低了模型过拟合的风险；
离散特征的增加和减少都很容易，易于模型的快速迭代；
稀疏向量内积乘法运算速度快，计算结果方便存储，容易扩展；
离散化后的特征对异常数据有很强的鲁棒性：比如一个特征是年龄>30是1，否则0。如果特征没有离散化，一个异常数据“年龄300岁”会给模型造成很大的干扰；
特征离散化后，模型会更稳定，比如如果对用户年龄离散化，20-30作为一个区间，不会因为一个用户年龄长了一岁就变成一个完全不同的人。当然处于区间相邻处的样本会刚好相反，所以怎么划分区间需要结合数据进行考虑；

线性回归和逻辑回归的区别和联系

线性回归和逻辑回归都是广义线性回归模型的特例
线性回归只能用于回归问题，逻辑回归用于分类问题（可由二分类推广至多分类）
线性回归无连接函数或不起作用，逻辑回归的连接函数是对数几率函数，即Sigmoid函数
线性回归使用最小二乘法作为参数估计方法，逻辑回归使用极大似然法作为参数估计方法

逻辑回归算法为什么用Sigmoid函数？

对于LR模型来说，其目标是最大化条件似然度，对于给定一个已知的样本向量x，我们可以表示其对应的y发生的概率为 $P\left ( y \mid x;w \right )$ ，在此基础上定义一个最大似然函数学习w，就可以得到一个有效的LR分类模型。

LR模型的重点是如何定义这个条件概率 $P\left ( y \mid x;w \right )$ 。对于一个有效的分类器，通常上响应值 $w\cdot x$ 代表了数据x属于正类（ $y=1$ ）的置信度。 $w\cdot x$ 越大，这个数据属于正类的可能性越大； $w\cdot x$ 越小，属于负类的可能性越大。因此，如果我们需要一个函数能够将 $w\cdot x$ 映射到条件概率 $P\left ( y=1 \mid x;w \right )$ ，那Sigmoid函数恰好能实现这一功能：首先，它的值域是（0,1），满足概率的要求；其次，它是一个单调递增函数。最终， $P\left ( y=1 \mid x;w \right ) = Sigmoid\left ( w\cdot x \right )$ 。

广义线性模型通常由两个因素决定：Y|X的分布和连接函数。LR模型的Y|X服从伯努利分布，连接函数使用Sigmoid（严格来说是Sigmoid的反函数），所以LR模型属于广义线性模型。

但是对于伯努利分布，其实不一定使用Sigmoid，还有其他选择，例如正态分布的CDF。

之所以使用Sigmoid，是因为Sigmoid是伯努利分布的数学表达式最简洁的连接函数。针对一个分布你可以选择很多连接函数，但一个分布的数学表达式最简洁的连接函数是唯一的。

Sigmoid函数有什么优点和缺点？

优点：Sigmoid函数的输出在(0,1)之间，输出范围有限，优化稳定，可以用作输出层。连续函数，便于求导。
缺点：Sigmoid函数在变量取绝对值非常大的正值或负值时会出现饱和现象，意味着函数会变得很平，并且对输入的微小改变会变得不敏感。

Demo实践

Step1：库函数导入

##  基础函数库
import numpy as np 

## 导入画图库
import matplotlib.pyplot as plt
import seaborn as sns

## 导入逻辑回归模型函数
from sklearn.linear_model import LogisticRegression

Step2：训练模型

##Demo演示LogisticRegression分类

## 构造数据集
x_fearures = np.array([[-1, -2], [-2, -1], [-3, -2], [1, 3], [2, 1], [3, 2]])
y_label = np.array([0, 0, 0, 1, 1, 1])

## 调用逻辑回归模型
lr_clf = LogisticRegression()

## 用逻辑回归模型拟合构造的数据集
lr_clf = lr_clf.fit(x_fearures, y_label) #其拟合方程为 y=w0+w1*x1+w2*x2

Step3：模型参数查看

##查看其对应模型的w
print('the weight of Logistic Regression:', lr_clf.coef_)
##查看其对应模型的w0
print('the intercept(w0) of Logistic Regression:', lr_clf.intercept_)
##the weight of Logistic Regression:[[0.73462087 0.6947908]]
##the intercept(w0) of Logistic Regression:[-0.03643213]

Step4：数据和模型可视化

## 可视化构造的数据样本点
plt.figure()
plt.scatter(x_fearures[:, 0], x_fearures[:, 1], c=y_label, s=50, cmap='viridis')
plt.title('Dataset')
plt.show()

# 可视化决策边界
plt.figure()
plt.scatter(x_fearures[:, 0], x_fearures[:, 1], c=y_label, s=50, cmap='viridis')
plt.title('Dataset')

nx, ny = 200, 100
x_min, x_max = plt.xlim()
y_min, y_max = plt.ylim()
x_grid, y_grid = np.meshgrid(np.linspace(x_min, x_max, nx), np.linspace(y_min, y_max, ny))

z_proba = lr_clf.predict_proba(np.c_[x_grid.ravel(), y_grid.ravel()])
z_proba = z_proba[:, 1].reshape(x_grid.shape)
plt.contour(x_grid, y_grid, z_proba, [0.5], linewidths=2., colors='blue')

plt.show()

### 可视化预测新样本

plt.figure()
## new point 1
x_fearures_new1 = np.array([[0, -1]])
plt.scatter(x_fearures_new1[:, 0], x_fearures_new1[:, 1], s=50, cmap='viridis')
plt.annotate(s='New point 1', xy=(0, -1), xytext=(-2, 0), color='blue', arrowprops=dict(arrowstyle='-|>', connectionstyle='arc3', color='red'))

## new point 2
x_fearures_new2 = np.array([[1, 2]])
plt.scatter(x_fearures_new2[:, 0], x_fearures_new2[:, 1], s=50, cmap='viridis')
plt.annotate(s='New point 2', xy=(1,2), xytext=(-1.5, 2.5), color='red', arrowprops=dict(arrowstyle='-|>', connectionstyle='arc3', color='red'))

## 训练样本
plt.scatter(x_fearures[:, 0], x_fearures[:, 1], c=y_label, s=50, cmap='viridis')
plt.title('Dataset')

# 可视化决策边界
plt.contour(x_grid, y_grid, z_proba, [0.5], linewidths=2., colors='blue')

plt.show()

Step5：模型预测

##在训练集和测试集上分布利用训练好的模型进行预测
y_label_new1_predict = lr_clf.predict(x_fearures_new1)
y_label_new2_predict = lr_clf.predict(x_fearures_new2)
print('The New point 1 predict class:\n', y_label_new1_predict)
print('The New point 2 predict class:\n', y_label_new2_predict)
##由于逻辑回归模型是概率预测模型（前文介绍的p = p(y=1|x,\theta)）,所有我们可以利用predict_proba函数预测其概率
y_label_new1_predict_proba = lr_clf.predict_proba(x_fearures_new1)
y_label_new2_predict_proba = lr_clf.predict_proba(x_fearures_new2)
print('The New point 1 predict Probability of each class:\n', y_label_new1_predict_proba)
print('The New point 2 predict Probability of each class:\n', y_label_new2_predict_proba)
##TheNewpoint1predictclass:
##[0]
##TheNewpoint2predictclass:
##[1]
##TheNewpoint1predictProbabilityofeachclass:
##[[0.695677240.30432276]]
##TheNewpoint2predictProbabilityofeachclass:
##[[0.119839360.88016064]]

可以发现训练好的回归模型将X_new1预测为了类别0（判别面左下侧），X_new2预测为了类别1（判别面右上侧）。其训练得到的逻辑回归模型的概率为0.5的判别面为上图中蓝色的线。

基于鸢尾花（iris）数据集的逻辑回归分类实践

在实践的最开始，我们首先需要导入一些基础的函数库包括：numpy （Python进行科学计算的基础软件包），pandas（pandas是一种快速，强大，灵活且易于使用的开源数据分析和处理工具），matplotlib和seaborn绘图。

Step1：函数库导入

##  基础函数库
import numpy as np 
import pandas as pd

## 绘图函数库
import matplotlib.pyplot as plt
import seaborn as sns

本次我们选择鸢花数据（iris）进行方法的尝试训练，该数据集一共包含5个变量，其中4个特征变量，1个目标分类变量。共有150个样本，目标变量为花的类别，其都属于鸢尾属下的三个亚属，分别是山鸢尾 (Iris-setosa)，变色鸢尾(Iris-versicolor)和维吉尼亚鸢尾(Iris-virginica)。包含的三种鸢尾花的四个特征，分别是花萼长度(cm)、花萼宽度(cm)、花瓣长度(cm)、花瓣宽度(cm)，这些形态特征在过去被用来识别物种。

Step2：数据读取/载入

##我们利用sklearn中自带的iris数据作为数据载入，并利用Pandas转化为DataFrame格式
from sklearn.datasets import load_iris
data = load_iris() #得到数据特征
iris_target = data.target #得到数据对应的标签
iris_features = pd.DataFrame(data=data.data, columns=data.feature_names) #利用Pandas转化为DataFrame格式

Step3：数据信息简单查看

##利用.info()查看数据的整体信息
iris_features.info()

##<class'pandas.core.frame.DataFrame'>
##RangeIndex:150entries,0to149
##Datacolumns(total4columns):
###ColumnNon-NullCountDtype
##----------------------------
##0sepallength(cm)150non-nullfloat64
##1sepalwidth(cm)150non-nullfloat64
##2petallength(cm)150non-nullfloat64
##3petalwidth(cm)150non-nullfloat64
##dtypes:float64(4)
##memoryusage:4.8KB

##进行简单的数据查看，我们可以利用.head()头部.tail()尾部
iris_features.head()

iris_features.tail()

##其对应的类别标签为，其中0，1，2分别代表'setosa','versicolor','virginica'三种不同花的类别

iris_target


##array([0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,


##0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,


##0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,


##1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,


##1,1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2,


##2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,


##2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2])

##利用value_counts函数查看每个类别数量

pd.Series(iris_target).value_counts()

##2    50

##1    50

##0    50

##dtype:int64

##对于特征进行一些统计描述

iris_features.describe()

从统计描述中我们可以看到不同数值特征的变化范围。

Step4：可视化描述

## 合并标签和特征信息
iris_all = iris_features.copy() ##进行浅拷贝，防止对于原始数据的修改
iris_all['target'] = iris_target

## 特征与标签组合的散点可视化
sns.pairplot(data=iris_all, diag_kind='hist', hue= 'target')
plt.show()

从上图可以发现，在2D情况下不同的特征组合对于不同类别的花的散点分布，以及大概的区分能力。

for col in iris_features.columns:
    sns.boxplot(x='target', y=col, saturation=0.5, palette='pastel', data=iris_all)
    plt.title(col)
    plt.show()

利用箱型图我们也可以得到不同类别在不同特征上的分布差异情况。

# 选取其前三个特征绘制三维散点图
from mpl_toolkits.mplot3d import Axes3D

fig = plt.figure(figsize=(10, 8))
ax = fig.add_subplot(111, projection='3d')

iris_all_class0 = iris_all[iris_all['target'] == 0].values
iris_all_class1 = iris_all[iris_all['target'] == 1].values
iris_all_class2 = iris_all[iris_all['target'] == 2].values
# 'setosa'(0), 'versicolor'(1), 'virginica'(2)
ax.scatter(iris_all_class0[:, 0], iris_all_class0[:, 1], iris_all_class0[:, 2], label='setosa')
ax.scatter(iris_all_class1[:, 0], iris_all_class1[:, 1], iris_all_class1[:, 2], label='versicolor')
ax.scatter(iris_all_class2[:, 0], iris_all_class2[:, 1], iris_all_class2[:, 2], label='virginica')
plt.legend()

plt.show()

Step5：利用逻辑回归模型在二分类上进行训练和预测

##为了正确评估模型性能，将数据划分为训练集和测试集，并在训练集上训练模型，在测试集上验证模型性能。
from sklearn.model_selection import train_test_split
##选择其类别为0和1的样本（不包括类别为2的样本）
iris_features_part = iris_features.iloc[:100]
iris_target_part = iris_target[:100]
##测试集大小为20%，80%/20%分
x_train, x_test, y_train, y_test = train_test_split(iris_features_part, iris_target_part, test_size=0.2, random_state=2020)

##从sklearn中导入逻辑回归模型
from sklearn.linear_model import LogisticRegression

##定义逻辑回归模型
clf = LogisticRegression(random_state=0, solver='lbfgs')

##在训练集上训练逻辑回归模型
clf.fit(x_train, y_train)

##查看其对应的w
print('the weight of Logistic Regression:', clf.coef_)

##查看其对应的w0
print('the intercept(w0) of Logistic Regression:', clf.intercept_)

##在训练集和测试集上分别利用训练好的模型进行预测
train_predict = clf.predict(x_train)
test_predict = clf.predict(x_test)

from sklearn import metrics
##利用accuracy（准确度）【预测正确的样本数目占总预测样本数目的比例】评估模型效果
print('The accuracy of the Logistic Regression is:', metrics.accuracy_score(y_train, train_predict))
print('The accuracy of the Logistic Regression is:', metrics.accuracy_score(y_test, test_predict))

##查看混淆矩阵(预测值和真实值的各类情况统计矩阵)
confusion_matrix_result = metrics.confusion_matrix(test_predict, y_test)
print('The confusion matrix result:\n', confusion_matrix_result)

##利用热力图对于结果进行可视化
plt.figure(figsize=(8, 6))
sns.heatmap(confusion_matrix_result, annot=True, cmap='Blues')
plt.xlabel('Predictedlabels')
plt.ylabel('Truelabels')
plt.show()

##The accuracy of the Logistic Regressionis:1.0
##The accuracy of the Logistic Regressionis:1.0
##The confusion matrix result:
##[[9  0]
##[0  11]]

我们可以发现其准确度为1，代表所有的样本都预测正确了。

Step6：利用逻辑回归模型在三分类(多分类)上进行训练和预测

##测试集大小为20%，80%/20%分
x_train, x_test, y_train, y_test = train_test_split(iris_features, iris_target, test_size=0.2, random_state=2020)

##定义逻辑回归模型
clf = LogisticRegression(random_state=0, solver='lbfgs')

##在训练集上训练逻辑回归模型
clf.fit(x_train, y_train)

##查看其对应的w
print('the weight of Logistic Regression:\n', clf.coef_)
##查看其对应的w0
print('the intercept(w0) of Logistic Regression:\n', clf.intercept_)
##由于这个是3分类，所有我们这里得到了三个逻辑回归模型的参数，其三个逻辑回归组合起来即可实现三分类

##在训练集和测试集上分布利用训练好的模型进行预测
train_predict = clf.predict(x_train)
test_predict = clf.predict(x_test)
##由于逻辑回归模型是概率预测模型（前文介绍的p=p(y=1|x,\theta)）,所有我们可以利用predict_proba函数预测其概率

train_predict_proba = clf.predict_proba(x_train)
test_predict_proba = clf.predict_proba(x_test)

print('The test predict Probability of each class:\n', test_predict_proba)
##其中第一列代表预测为0类的概率，第二列代表预测为1类的概率，第三列代表预测为2类的概率。

##利用accuracy（准确度）【预测正确的样本数目占总预测样本数目的比例】评估模型效果
print('The accuracy of the Logistic Regression is:', metrics.accuracy_score(y_train, train_predict))
print('The accuracy of the Logistic Regression is:', metrics.accuracy_score(y_test, test_predict))

##查看混淆矩阵
confusion_matrix_result = metrics.confusion_matrix(test_predict, y_test)
print('The confusion matrix result:\n', confusion_matrix_result)

##利用热力图对于结果进行可视化
plt.figure(figsize=(8, 6))
sns.heatmap(confusion_matrix_result, annot=True, cmap='Blues')
plt.xlabel('Predicted labels')
plt.ylabel('True labels')
plt.show()

##The confusion matrix result:
##[[10  0   0]
##[0   8   2] 
##[0   2   8]]

scikit-learn 中的 LogisticRegression 类

scikit-learn 中逻辑回归在 LogisticRegression 类中实现了二分类（binary）、一对多分类（one-vs-rest）及多项式 logistic 回归，并带有可选的 L1 和 L2 正则化。

作为优化问题，带L2罚项的二分类逻辑回归要最小化以下代价函数（cost function）：

$\min_{w,c} \frac{1}{2} w^{T} w + C\sum_{i=1}^{n} log\left ( exp\left ( -y_{i} \left ( X_{i}^{T} w + c \right ) \right ) + 1 \right )$

类似地，带 L1 正则的 logistic 回归解决的是如下优化问题：

$\min_{w,c} \left \| w \right \|_{1} + C\sum_{i=1}^{n} log\left ( exp\left ( -y_{i} \left ( X_{i}^{T} w + c \right ) \right ) + 1 \right )$

Elastic-Net正则化是L1 和 L2的组合，来使如下代价函数最小：

$\min_{w,c} \frac{1-\rho }{2} w^{T} w + \rho \left \| w \right \|_{1} + C\sum_{i=1}^{n} log\left ( exp\left ( -y_{i} \left ( X_{i}^{T} w + c \right ) \right ) + 1 \right )$

其中ρ控制正则化L1与正则化L2的强度(对应于l1_ratio参数)。

在 LogisticRegression 类中实现了这些优化算法： liblinear， newton-cg， lbfgs， sag 和 saga。

默认情况下，lbfgs求解器鲁棒性占优。对于大型数据集，saga求解器通常更快。

nano-

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
逻辑回归的原理与实践

# 1.学习目标* 了解**逻辑回归**的理论* 掌握**逻辑回归**的**sklearn**函数调用使用并将其运用到鸢尾花数据集预测# 2.逻辑回归的应用逻辑回归模型广泛用于各个领域，包括机器学习，大多数医学领域和社会科学。例如，最初由Boyd 等人开发的创伤和损伤严重度评分（TRISS）被广泛用于预测受伤患者的死亡率，使用逻辑回归基于观察到的患者特征（年龄，性别，体重指数，各种血液检查的结果等）分析预测发生特定疾病（例如糖尿病，冠心病）的风险。逻辑回归模型也用于预测在给定的过程中，系统或产品
复制链接

扫一扫