逻辑回归--LogisticRegression类

最新推荐文章于 2022-11-12 16:30:42 发布

夺笋123

最新推荐文章于 2022-11-12 16:30:42 发布

阅读量585

点赞数 1

分类专栏： # sklearn机器学习库文章标签：逻辑回归机器学习 sklearn

本文链接：https://blog.csdn.net/m0_54510474/article/details/124583598

版权

sklearn机器学习库专栏收录该内容

20 篇文章 13 订阅

订阅专栏

linear_model.LogisticRegression(penalty='l2', *, dual=False, tol=0.0001, C=1.0, fit_intercept=True, intercept_scaling=1, class_weight=None, random_state=None, solver='lbfgs', max_iter=100, multi_class='auto', verbose=0, warm_start=False, n_jobs=None, l1_ratio=None)

参数

penalty（重要）

正则处罚项

可选值	描述
‘none’:	不使用正则化
‘l2’	L2正则化
‘l1’	L2正则化
‘elasticnet’	同时使用L1/L2正则化

tol:float

默认：1e-4
对停止迭代的容忍度

模型训练过程中通过迭代进行参数更新，参数的更新保证模型的损失函数值越来越小，当两次迭代后（或者连续几次迭代）损失函数的值没有降低到一个指定的值，我们就认为参数几乎已经达到最优，这个指定的值就是tol

slover（重要）

默认值：‘lbfgs’

优化问题的使用的算法

可选值	对应的penalty参数
‘newton-cg’	[‘l2’, ‘none’]
‘lbfgs’	[‘l2’, ‘none’]
‘liblinear’	[‘l1’, ‘l2’]
‘sag’	[‘l2’, ‘none’]
‘saga’	[‘elasticnet’, ‘l1’, ‘l2’, ‘none’]

注意：

'lbfgs’对于小型数据集是个较好的选择，‘sag’ and ‘saga’ 对于大型数据集的优化速度更快
‘liblinear’算法不能对多分类问题进行优化，对于多分类问题只能使用其他四种算法
'sag’和’saga’优化算法只能够在样本的特征值在大约相似的数量级时快速收敛，可以使用sklearn.preprocessing模块对样本数据进行预处理

random_state:int

默认：None
当slover=‘sag’,‘saga’,‘liblinear’时，该参数用于打乱数据集

n_jobs:int

默认：None,代表使用1个内核，该参数值为-1时，将会使用全部处理器
表示并行分类时使用到的cpu内核数量
当使用‘liblinear’优化算法时，不管’multi_class’是否指定值，该参数都将会被忽略

l1_ratio:float

None,值在(0,1)之间。
当l1_ratio=1时相当于penalty=‘L1’，当l1_ratio=0时相当于penalty=‘L2’
只当’penalty=‘elasticnet’'时该参数才会生效，表示正则化l1占得比例

max_iter:int

默认：100
算法优化时，对参数的更新次数（迭代次数）

属性

classes_

ndarray ， (n_classes, )
分类器已知的分类标签列表

coef_

ndarray ， (1, n_features) or (n_classes, n_features)
决策函数中的特征系数
当是一个二分类问题时，该参数的形状是（1,n_features）

intercept_

ndarray , (1,) or (n_classes,)

n_features_in_

int
模型训练时候使用到的特征数量

feature_names_in_

ndarray of shape (n_features_in_,)
模型训练时使用到的特征名称，仅仅当训练集中的样本含有数据类型为“str”的特征名称

n_iter_

ndarray of shape (n_classes,) or (1, )
模型训练时对于所有类的迭代次数，如果是二分类或多分类，其返回值仅仅包含一个元素。对于’‘liblinear’优化算法，只返回所有类型的迭代次数中最大的那个

类方法

decision_function(X)

对于样本x进行预测，返回预测的信心分数

	数据类型
返回值	ndarray ， (n_samples,) or (n_samples, n_classes)

densify()

将系数矩阵转换为密集数组格式

	数据类型	描述
返回值	self	已经拟合过的估计器

sparsify()

将系数矩阵转换为稀疏数组格式

	数据类型	描述
返回值	self	已经拟合过的估计器

fit(X, y[, sample_weight])

使用给定的训练集数据x,y训练模型

	数据类型	描述
返回值	self	已经拟合过的估计器

get_params([deep])

返回估计器的参数

	数据类型	描述
返回值	dict	参数名称以及其对应值

predict(X)（重要）

对样本x进行分类

	数据类型	描述
参数X	array-like of shape (n_samples, n_features)	共有n_samples个样本，每个样本有n_features个特征
返回值	y_pred：ndarray ， (n_samples,)	返回每个样本的预测标签

predict_proba(X)（重要）

估计概率

	数据类型	描述
参数X	array-like of shape (n_samples, n_features)	共有n_samples个样本，每个样本有n_features个特征
返回值	array-like of shape (n_samples, n_classes)	共有n_samples个样本，因为有n_classes个目标标签，所以该函数返回每个样本被分类为每个标签的概率

score(X, y[, sample_weight]）（重要）

返回给定的测试数据及标签的平均准确度，即返回评分

参数	数据类型	描述
X	array-like,(n_samples, n_features)	共有n_samples个样本，每个样本有n_features个特征
Y	array-like,(n_samples,) or (n_samples, n_outputs)
sample_weight	array-like ,(n_samples,), default=None
返回值	self	已经拟合过的估计器