逻辑回归的原理与实践

目录

学习目标

逻辑回归的应用

逻辑回归原理简介

为什么LR需要归一化或者取对数?

归一化的类型

1.线性归一化

2.标准差标准化

3.非线性归一化

为什么LR把特征离散化后效果更好?离散化的好处有哪些?

线性回归和逻辑回归的区别和联系

逻辑回归算法为什么用Sigmoid函数?

Sigmoid函数有什么优点和缺点?

Demo实践

基于鸢尾花(iris)数据集的逻辑回归分类实践

scikit-learn 中的 LogisticRegression 类


学习目标

  • 了解逻辑回归的理论
  • 掌握逻辑回归sklearn函数调用并将其运用到鸢尾花数据集预测

逻辑回归的应用

逻辑回归模型广泛用于各个领域,包括机器学习,大多数医学领域社会科学。例如,最初由Boyd等人开发的创伤和损伤严重度评分(TRISS)被广泛用于预测受伤患者的死亡率,使用逻辑回归基于观察到的患者特征(年龄,性别,体重指数,各种血液检查的结果等)分析预测发生特定疾病(例如糖尿病,冠心病)的风险。逻辑回归模型也用于预测在给定的过程中,系统或产品的故障的可能性。还用于市场营销应用程序,例如预测客户购买产品或中止订购的倾向等。在经济学中它可以用来预测一个人选择进入劳动力市场的可能性,而商业应用则可以用来预测房主拖欠抵押贷款的可能性。

逻辑回归模型现在同样是很多分类算法的基础组件,比如分类任务中基于GBDT+LR实现的信用卡交易反欺诈,CTR(点击通过率)预估等,其好处在于输出值自然地落在0到1之间,并且有概率意义。模型清晰,有对应的概率学理论基础。它拟合出来的参数就代表了每一个特征(feature)对结果的影响。也是一个理解数据的好工具。但同时由于其本质上是一个线性的分类器,所以不能应对较为复杂的数据情况。很多时候我们也会拿逻辑回归模型去做一些任务尝试的基线。

逻辑回归原理简介

逻辑回归,该模型的输出变量范围始终在 0 和 1 之间。

逻辑回归模型的假设是:

h_{\theta }\left ( x \right )= g\left ( \theta ^{T}X \right )

其中: X 代表特征向量, g 代表逻辑函数(logistic function),一个常用的逻辑函数为 S 形函数(Sigmoid function),公式为:

g\left ( z \right )= \frac{1}{1+e^{-z}}

该函数的图像为:

h_{\theta }\left ( x \right )的作用是,对于给定的输入变量,根据选择的参数计算输出变量等于1的可能性(estimated probablity)即:

h_{\theta }\left ( x \right )=P\left ( y=1\mid x;\theta \right )

例如,如果对于给定的 x ,通过已经确定的参数计算得出h_{\theta }\left ( x \right )=0.7,则表示有 70% 的几率 x 为正类,相应地 x 为负类的几率为1-0.7=0.3

在逻辑回归中,我们预测:

h_{\theta }\left ( x \right )\geq 0.5时,预测y=1

h_{\theta }\left ( x \right )< 0.5时,预测y=0

根据上面绘制出的Sigmoid函数图像,我们知道:

z=0时,g\left ( z \right )=0.5

z>0时,g\left ( z \right )>0.5

z<0时,g\left ( z \right )<0.5

z=\theta ^{T}x,即:

\theta ^{T}x\geq 0时,预测y=1

\theta ^{T}x< 0时,预测y=0

因为各个观测样本之间相互独立,那么它们的联合分布为各边缘分布的乘积。得到似然函数为:

L\left ( \theta \right )=\prod_{i=1}^{m}h_{\theta }\left ( x_{i} \right )^{y_{i}}\left [ 1-h_{\theta }\left ( x_{i} \right ) \right ]^{1-y_{i}}

接下来我们的目标就是求解似然函数的最大值,对上式两边取对数,得到:

ln\left [ L\left ( \theta \right ) \right ] = \sum_{i=1}^{m} y_{i} ln\left [ h_{\theta } \left ( x_{i} \right ) \right ] + \left ( 1-y_{i} \right ) ln\left [ 1-h_{\theta } \left ( x_{i} \right ) \right ]

所以,我们就可以构造Loss Functionl如下式:

J\left ( \theta \right ) = -\frac{1}{m} \sum_{i=1}^{m} y_{i} ln\left [ h_{\theta } \left ( x_{i} \right ) \right ] + \left ( 1-y_{i} \right ) ln\left [ 1-h_{\theta } \left ( x_{i} \right ) \right ]

加上-\frac{1}{m},求解J\left ( \theta \right )的最小值,也就是求解似然函数的最大值,主要是为了方便后面的梯度下降法。所以使用梯度下降法求解,其更新函数为:

\theta _{j} : = \theta _{j} -\alpha \frac{\partial }{\partial \theta } J\left ( \theta \right )

\frac{\partial }{\partial \theta } J\left ( \theta \right ) = \frac{1}{m} \sum_{i=1}^{m} \left [ h_{\theta } \left ( x_{i} \right ) -y_{i} \right ] x_{i}^{j}

为什么LR需要归一化或者取对数?

如上图所示,蓝色的圈代表的是两个特征的等高线。其中左图两个特征x_{1}x_{2}的区间相差非常大,x_{1}的区间为[0,2000],x_{2}的区间为[1,5],其所形成的等高线呈椭圆形。当使用梯度下降法寻求最优解时,很有可能振荡收敛,从而导致需要迭代很多次才能收敛;

而右图对两个原始特征进行了归一化,其对应的等高线呈正圆形,在梯度下降进行求解时能较快的收敛。

因此如果机器学习模型使用梯度下降法求最优解时,归一化往往非常有必要,否则收敛速度缓慢甚至不能收敛。

归一化的类型

1.线性归一化

x'=\frac{x-\min \left ( x \right ) }{\max \left ( x \right ) - \min \left ( x \right ) }

这种归一化方法比较适用在数值比较集中的情况。这种方法有个缺陷,如果 max 和 min 不稳定,很容易使得归一化结果不稳定,使得后续使用效果也不稳定。实际使用中可以用经验常量值来替代 max 和 min 。

2.标准差标准化

经过处理的数据符合标准正态分布,即均值为 0 ,标准差为 1 ,其转化函数为:

x^{*}=\frac{x-\mu }{\sigma }

其中 μ 为所有样本数据的均值, σ 为所有样本数据的标准差。

3.非线性归一化

经常用在数据分化比较大的场景,有些数值很大,有些很小。通过一些数学函数,将原始值进行映射。该方法包括 log、指数,正切等。需要根据数据分布的情况,决定非线性函数的曲线,比如log(V, 2)还是log(V, 10)等。

为什么LR把特征离散化后效果更好?离散化的好处有哪些?

逻辑回归属于广义线性模型,表达能力受限;

在工业界,很少直接将连续值作为逻辑回归模型的特征输入,而是将连续特征离散化为一系列0、1特征交给逻辑回归模型,这样做的优势有以下几点:

  • 逻辑回归属于广义线性模型,表达能力受限;单变量离散化为N个后,每个变量有单独的权重,相当于为模型引入了非线性,能够提升模型表达能力,加大拟合;
  • 离散化后可以进行特征交叉,由 M+N 个变量变为 M*N 个变量,进一步引入非线性,提升表达能力;
  • 特征离散化以后,起到了简化逻辑回归模型的作用,降低了模型过拟合的风险;
  • 离散特征的增加和减少都很容易,易于模型的快速迭代
  • 稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展;
  • 离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是年龄>30是1,否则0。如果特征没有离散化,一个异常数据“年龄300岁”会给模型造成很大的干扰;
  • 特征离散化后,模型会更稳定,比如如果对用户年龄离散化,20-30作为一个区间,不会因为一个用户年龄长了一岁就变成一个完全不同的人。当然处于区间相邻处的样本会刚好相反,所以怎么划分区间需要结合数据进行考虑;

线性回归和逻辑回归的区别和联系

  • 线性回归和逻辑回归都是广义线性回归模型的特例
  • 线性回归只能用于回归问题,逻辑回归用于分类问题(可由二分类推广至多分类)
  • 线性回归无连接函数或不起作用,逻辑回归的连接函数是对数几率函数,即Sigmoid函数
  • 线性回归使用最小二乘法作为参数估计方法,逻辑回归使用极大似然法作为参数估计方法

逻辑回归算法为什么用Sigmoid函数?

对于LR模型来说,其目标是最大化条件似然度,对于给定一个已知的样本向量x,我们可以表示其对应的y发生的概率为P\left ( y \mid x;w \right ),在此基础上定义一个最大似然函数学习w,就可以得到一个有效的LR分类模型。

LR模型的重点是如何定义这个条件概率P\left ( y \mid x;w \right )。对于一个有效的分类器,通常上响应值w\cdot x代表了数据x属于正类(y=1)的置信度。w\cdot x越大,这个数据属于正类的可能性越大;w\cdot x越小,属于负类的可能性越大。因此,如果我们需要一个函数能够将w\cdot x映射到条件概率P\left ( y=1 \mid x;w \right ),那Sigmoid函数恰好能实现这一功能:首先,它的值域是(0,1),满足概率的要求;其次,它是一个单调递增函数。最终,P\left ( y=1 \mid x;w \right ) = Sigmoid\left ( w\cdot x \right )

广义线性模型通常由两个因素决定:Y|X的分布和连接函数。LR模型的Y|X服从伯努利分布,连接函数使用Sigmoid(严格来说是Sigmoid的反函数),所以LR模型属于广义线性模型。

但是对于伯努利分布,其实不一定使用Sigmoid,还有其他选择,例如正态分布的CDF。

之所以使用Sigmoid,是因为Sigmoid是伯努利分布的数学表达式最简洁的连接函数。针对一个分布你可以选择很多连接函数,但一个分布的数学表达式最简洁的连接函数是唯一的。

Sigmoid函数有什么优点和缺点?

  • 优点:Sigmoid函数的输出在(0,1)之间,输出范围有限,优化稳定,可以用作输出层。连续函数,便于求导。
  • 缺点:Sigmoid函数在变量取绝对值非常大的正值或负值时会出现饱和现象,意味着函数会变得很平,并且对输入的微小改变会变得不敏感。

Demo实践

  • Step1:库函数导入
##  基础函数库
import numpy as np 

## 导入画图库
import matplotlib.pyplot as plt
import seaborn as sns

## 导入逻辑回归模型函数
from sklearn.linear_model import LogisticRegression
  • Step2:训练模型
##Demo演示LogisticRegression分类

## 构造数据集
x_fearures = np.array([[-1, -2], [-2, -1], [-3, -2], [1, 3], [2, 1], [3, 2]])
y_label = np.array([0, 0, 0, 1, 1, 1])

## 调用逻辑回归模型
lr_clf = LogisticRegression()

## 用逻辑回归模型拟合构造的数据集
lr_clf = lr_clf.fit(x_fearures, y_label) #其拟合方程为 y=w0+w1*x1+w2*x2
  • Step3:模型参数查看
##查看其对应模型的w
print('the weight of Logistic Regression:', lr_clf.coef_)
##查看其对应模型的w0
print('the intercept(w0) of Logistic Regression:', lr_clf.intercept_)
##the weight of Logistic Regression:[[0.73462087 0.6947908]]
##the intercept(w0) of Logistic Regression:[-0.03643213]
  • Step4:数据和模型可视化
## 可视化构造的数据样本点
plt.figure()
plt.scatter(x_fearures[:, 0], x_fearures[:, 1], c=y_label, s=50, cmap='viridis')
plt.title('Dataset')
plt.show()

# 可视化决策边界
plt.figure()
plt.scatter(x_fearures[:, 0], x_fearures[:, 1], c=y_label, s=50, cmap='viridis')
plt.title('Dataset')

nx, ny = 200, 100
x_min, x_max = plt.xlim()
y_min, y_max = plt.ylim()
x_grid, y_grid = np.meshgrid(np.linspace(x_min, x_max, nx), np.linspace(y_min, y_max, ny))

z_proba = lr_clf.predict_proba(np.c_[x_grid.ravel(), y_grid.ravel()])
z_proba = z_proba[:, 1].reshape(x_grid.shape)
plt.contour(x_grid, y_grid, z_proba, [0.5], linewidths=2., colors='blue')

plt.show()

### 可视化预测新样本

plt.figure()
## new point 1
x_fearures_new1 = np.array([[0, -1]])
plt.scatter(x_fearures_new1[:, 0], x_fearures_new1[:, 1], s=50, cmap='viridis')
plt.annotate(s='New point 1', xy=(0, -1), xytext=(-2, 0), color='blue', arrowprops=dict(arrowstyle='-|>', connectionstyle='arc3', color='red'))

## new point 2
x_fearures_new2 = np.array([[1, 2]])
plt.scatter(x_fearures_new2[:, 0], x_fearures_new2[:, 1], s=50, cmap='viridis')
plt.annotate(s='New point 2', xy=(1,2), xytext=(-1.5, 2.5), color='red', arrowprops=dict(arrowstyle='-|>', connectionstyle='arc3', color='red'))

## 训练样本
plt.scatter(x_fearures[:, 0], x_fearures[:, 1], c=y_label, s=50, cmap='viridis')
plt.title('Dataset')

# 可视化决策边界
plt.contour(x_grid, y_grid, z_proba, [0.5], linewidths=2., colors='blue')

plt.show()

  • Step5:模型预测
##在训练集和测试集上分布利用训练好的模型进行预测
y_label_new1_predict = lr_clf.predict(x_fearures_new1)
y_label_new2_predict = lr_clf.predict(x_fearures_new2)
print('The New point 1 predict class:\n', y_label_new1_predict)
print('The New point 2 predict class:\n', y_label_new2_predict)
##由于逻辑回归模型是概率预测模型(前文介绍的p = p(y=1|x,\theta)),所有我们可以利用predict_proba函数预测其概率
y_label_new1_predict_proba = lr_clf.predict_proba(x_fearures_new1)
y_label_new2_predict_proba = lr_clf.predict_proba(x_fearures_new2)
print('The New point 1 predict Probability of each class:\n', y_label_new1_predict_proba)
print('The New point 2 predict Probability of each class:\n', y_label_new2_predict_proba)
##TheNewpoint1predictclass:
##[0]
##TheNewpoint2predictclass:
##[1]
##TheNewpoint1predictProbabilityofeachclass:
##[[0.695677240.30432276]]
##TheNewpoint2predictProbabilityofeachclass:
##[[0.119839360.88016064]]

可以发现训练好的回归模型将X_new1预测为了类别0(判别面左下侧),X_new2预测为了类别1(判别面右上侧)。其训练得到的逻辑回归模型的概率为0.5的判别面为上图中蓝色的线。

基于鸢尾花(iris)数据集的逻辑回归分类实践

在实践的最开始,我们首先需要导入一些基础的函数库包括:numpy (Python进行科学计算的基础软件包),pandas(pandas是一种快速,强大,灵活且易于使用的开源数据分析和处理工具),matplotlibseaborn绘图。

  • Step1:函数库导入
##  基础函数库
import numpy as np 
import pandas as pd

## 绘图函数库
import matplotlib.pyplot as plt
import seaborn as sns

本次我们选择鸢花数据(iris)进行方法的尝试训练,该数据集一共包含5个变量,其中4个特征变量,1个目标分类变量。共有150个样本,目标变量为花的类别,其都属于鸢尾属下的三个亚属,分别是山鸢尾 (Iris-setosa),变色鸢尾(Iris-versicolor)和维吉尼亚鸢尾(Iris-virginica)。包含的三种鸢尾花的四个特征,分别是花萼长度(cm)、花萼宽度(cm)、花瓣长度(cm)、花瓣宽度(cm),这些形态特征在过去被用来识别物种。

  • Step2:数据读取/载入
##我们利用sklearn中自带的iris数据作为数据载入,并利用Pandas转化为DataFrame格式
from sklearn.datasets import load_iris
data = load_iris() #得到数据特征
iris_target = data.target #得到数据对应的标签
iris_features = pd.DataFrame(data=data.data, columns=data.feature_names) #利用Pandas转化为DataFrame格式
  • Step3:数据信息简单查看
##利用.info()查看数据的整体信息
iris_features.info()

##<class'pandas.core.frame.DataFrame'>
##RangeIndex:150entries,0to149
##Datacolumns(total4columns):
###ColumnNon-NullCountDtype
##----------------------------
##0sepallength(cm)150non-nullfloat64
##1sepalwidth(cm)150non-nullfloat64
##2petallength(cm)150non-nullfloat64
##3petalwidth(cm)150non-nullfloat64
##dtypes:float64(4)
##memoryusage:4.8KB
##进行简单的数据查看,我们可以利用.head()头部.tail()尾部
iris_features.head()

iris_features.tail()

##其对应的类别标签为,其中0,1,2分别代表'setosa','versicolor','virginica'三种不同花的类别

iris_target


##array([0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,


##0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,


##0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,


##1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,


##1,1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2,


##2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,


##2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2])
##利用value_counts函数查看每个类别数量

pd.Series(iris_target).value_counts()

##2    50

##1    50

##0    50

##dtype:int64
##对于特征进行一些统计描述

iris_features.describe()

从统计描述中我们可以看到不同数值特征的变化范围。

  • Step4:可视化描述
## 合并标签和特征信息
iris_all = iris_features.copy() ##进行浅拷贝,防止对于原始数据的修改
iris_all['target'] = iris_target
## 特征与标签组合的散点可视化
sns.pairplot(data=iris_all, diag_kind='hist', hue= 'target')
plt.show()

从上图可以发现,在2D情况下不同的特征组合对于不同类别的花的散点分布,以及大概的区分能力。

for col in iris_features.columns:
    sns.boxplot(x='target', y=col, saturation=0.5, palette='pastel', data=iris_all)
    plt.title(col)
    plt.show()

利用箱型图我们也可以得到不同类别在不同特征上的分布差异情况。

# 选取其前三个特征绘制三维散点图
from mpl_toolkits.mplot3d import Axes3D

fig = plt.figure(figsize=(10, 8))
ax = fig.add_subplot(111, projection='3d')

iris_all_class0 = iris_all[iris_all['target'] == 0].values
iris_all_class1 = iris_all[iris_all['target'] == 1].values
iris_all_class2 = iris_all[iris_all['target'] == 2].values
# 'setosa'(0), 'versicolor'(1), 'virginica'(2)
ax.scatter(iris_all_class0[:, 0], iris_all_class0[:, 1], iris_all_class0[:, 2], label='setosa')
ax.scatter(iris_all_class1[:, 0], iris_all_class1[:, 1], iris_all_class1[:, 2], label='versicolor')
ax.scatter(iris_all_class2[:, 0], iris_all_class2[:, 1], iris_all_class2[:, 2], label='virginica')
plt.legend()

plt.show()

  • Step5:利用逻辑回归模型在二分类上进行训练和预测
##为了正确评估模型性能,将数据划分为训练集和测试集,并在训练集上训练模型,在测试集上验证模型性能。
from sklearn.model_selection import train_test_split
##选择其类别为0和1的样本(不包括类别为2的样本)
iris_features_part = iris_features.iloc[:100]
iris_target_part = iris_target[:100]
##测试集大小为20%,80%/20%分
x_train, x_test, y_train, y_test = train_test_split(iris_features_part, iris_target_part, test_size=0.2, random_state=2020)
##从sklearn中导入逻辑回归模型
from sklearn.linear_model import LogisticRegression
##定义逻辑回归模型
clf = LogisticRegression(random_state=0, solver='lbfgs')
##在训练集上训练逻辑回归模型
clf.fit(x_train, y_train)
##查看其对应的w
print('the weight of Logistic Regression:', clf.coef_)

##查看其对应的w0
print('the intercept(w0) of Logistic Regression:', clf.intercept_)
##在训练集和测试集上分别利用训练好的模型进行预测
train_predict = clf.predict(x_train)
test_predict = clf.predict(x_test)
from sklearn import metrics
##利用accuracy(准确度)【预测正确的样本数目占总预测样本数目的比例】评估模型效果
print('The accuracy of the Logistic Regression is:', metrics.accuracy_score(y_train, train_predict))
print('The accuracy of the Logistic Regression is:', metrics.accuracy_score(y_test, test_predict))

##查看混淆矩阵(预测值和真实值的各类情况统计矩阵)
confusion_matrix_result = metrics.confusion_matrix(test_predict, y_test)
print('The confusion matrix result:\n', confusion_matrix_result)

##利用热力图对于结果进行可视化
plt.figure(figsize=(8, 6))
sns.heatmap(confusion_matrix_result, annot=True, cmap='Blues')
plt.xlabel('Predictedlabels')
plt.ylabel('Truelabels')
plt.show()

##The accuracy of the Logistic Regressionis:1.0
##The accuracy of the Logistic Regressionis:1.0
##The confusion matrix result:
##[[9  0]
##[0  11]]

我们可以发现其准确度为1,代表所有的样本都预测正确了。

  • Step6:利用逻辑回归模型在三分类(多分类)上进行训练和预测
##测试集大小为20%,80%/20%分
x_train, x_test, y_train, y_test = train_test_split(iris_features, iris_target, test_size=0.2, random_state=2020)
##定义逻辑回归模型
clf = LogisticRegression(random_state=0, solver='lbfgs')
##在训练集上训练逻辑回归模型
clf.fit(x_train, y_train)
##查看其对应的w
print('the weight of Logistic Regression:\n', clf.coef_)
##查看其对应的w0
print('the intercept(w0) of Logistic Regression:\n', clf.intercept_)
##由于这个是3分类,所有我们这里得到了三个逻辑回归模型的参数,其三个逻辑回归组合起来即可实现三分类
##在训练集和测试集上分布利用训练好的模型进行预测
train_predict = clf.predict(x_train)
test_predict = clf.predict(x_test)
##由于逻辑回归模型是概率预测模型(前文介绍的p=p(y=1|x,\theta)),所有我们可以利用predict_proba函数预测其概率

train_predict_proba = clf.predict_proba(x_train)
test_predict_proba = clf.predict_proba(x_test)

print('The test predict Probability of each class:\n', test_predict_proba)
##其中第一列代表预测为0类的概率,第二列代表预测为1类的概率,第三列代表预测为2类的概率。

##利用accuracy(准确度)【预测正确的样本数目占总预测样本数目的比例】评估模型效果
print('The accuracy of the Logistic Regression is:', metrics.accuracy_score(y_train, train_predict))
print('The accuracy of the Logistic Regression is:', metrics.accuracy_score(y_test, test_predict))
##查看混淆矩阵
confusion_matrix_result = metrics.confusion_matrix(test_predict, y_test)
print('The confusion matrix result:\n', confusion_matrix_result)

##利用热力图对于结果进行可视化
plt.figure(figsize=(8, 6))
sns.heatmap(confusion_matrix_result, annot=True, cmap='Blues')
plt.xlabel('Predicted labels')
plt.ylabel('True labels')
plt.show()

##The confusion matrix result:
##[[10  0   0]
##[0   8   2] 
##[0   2   8]]

scikit-learn 中的 LogisticRegression 类

scikit-learn 中逻辑回归在 LogisticRegression 类中实现了二分类(binary)、一对多分类(one-vs-rest)及多项式 logistic 回归,并带有可选的 L1L2 正则化。

作为优化问题,带L2罚项的二分类逻辑回归要最小化以下代价函数(cost function):

\min_{w,c} \frac{1}{2} w^{T} w + C\sum_{i=1}^{n} log\left ( exp\left ( -y_{i} \left ( X_{i}^{T} w + c \right ) \right ) + 1 \right )

类似地,带 L1 正则的 logistic 回归解决的是如下优化问题:

\min_{w,c} \left \| w \right \|_{1} + C\sum_{i=1}^{n} log\left ( exp\left ( -y_{i} \left ( X_{i}^{T} w + c \right ) \right ) + 1 \right )

Elastic-Net正则化是L1 和 L2的组合,来使如下代价函数最小:

\min_{w,c} \frac{1-\rho }{2} w^{T} w + \rho \left \| w \right \|_{1} + C\sum_{i=1}^{n} log\left ( exp\left ( -y_{i} \left ( X_{i}^{T} w + c \right ) \right ) + 1 \right )

其中ρ控制正则化L1与正则化L2的强度(对应于l1_ratio参数)。

在 LogisticRegression 类中实现了这些优化算法: liblinear, newton-cg, lbfgs, sag 和 saga

默认情况下,lbfgs求解器鲁棒性占优。对于大型数据集,saga求解器通常更快。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值