Scikit_Learn中的Logistic回归模型实现

最新推荐文章于 2022-04-14 10:48:35 发布

大咸鱼呵呵

最新推荐文章于 2022-04-14 10:48:35 发布

阅读量516

点赞数

LogisticRegression：给定正则参数C对应的Logistic回归。

LogisticRegressionCV：在一组正则参数Cs中寻找最佳C的Logistic回归。

SGDClassifier：可实现采用随机梯度下降优化的Logistic回归。

LogisticRegression

class sklearn.linear_model.LogisticRegression(penalty=’l2’, dual=False, tol =0.0001, C=1.0, fit_intercept=True, intercept_scaling=1, class_weight=None, random_state=None, solver=’liblinear’ , max_iter=100, multi_class=’ovr’ , verbose=0, warm_start=False, n_jobs=1)

支持两种正则：L2正则和L1正则。但L1正则函数不连续，优化器只能选择‘liblinear’和'saga'。正则参数为：penalty、C

支持两种多类分类方式：‘ovr’和‘multinomial’。模型参数为multi_class。

支持多种优化方式，需注意不同优化方法的适用范围。优化器参数为：solver。

支持对不同类别样本权重设置，权重参数：class_weight

LogisticRegression的参数

penalty：惩罚函数/正则函数，支持L2正则和L1正则，缺省：L2。L1正则的优化器可选‘liblinear’和‘saga’。

dual：原问题（primal）还是对偶问题求解。对偶只支持L2正则和‘liblinear’优化器。缺省：False。当样本数n_samples>特征数目n_features时，原问题求解更简单。

tol：迭代终止判断的误差范围。缺省：1e-4。

C：交叉熵损失函数系数，缺省：1。。

fit_intercept：是否在决策函数中加入截距项。缺省：True。如果数据已经中心化，可以不用。

intercept_scaling：截距缩放因子，当fit_intercept为True且liblinear对solver有效。输入为[x,self.intercept_scaling]，即对输入特征加入1维常数项。增加的常数项系数也受到l1/l2正则的惩罚，所以要适当正则常数项。

class_weight：不同类别样本的权重，用户指定每类样本权重或‘balanced’（每类样本权重与该类样本出现比例成反比）。缺省：None。

random_state：数据洗牌时的伪随机数。缺省：None。如希望每次运行结果相同，设置random_state为一正数。

solver：优化求解算法，可为‘newton-cg’，‘lbfgs’，‘liblinear’，‘sag’，’‘saga’。缺省：liblinear。L1正则的优化器可选'liblinear'和‘saga’。

max_iter：最大迭代次数，当solver为newton-cg，sag，lbfgs时有效。缺省：100。

multi_class：多类分类处理策略，可为'over'，'multinomial'。'over'为1对多，将多类分类转化为多个两类分类问题，multinomial为softmax分类。缺省：'ovr'。multinomial的优化器只支持newton-cg,lbfgs和sag。OvR相对简单，但分类效果相对略差。MvM分类相对准确，但是分类速度没有OvR快。

verbose：是否详细输出

warm_start：是否热启动（用之前的结果作为初始化），对liblinear_solver无效。缺省：False。

n_jobs：多线程控制，缺省值1。取-1时算法自动检测可用CPU核，并使用全部核。

LogisticRegression的属性

coef_：回归系数/权重，与特征维数相同。如果是多任务回归，标签y为二维数组，则回归系数也是二维数组。

intercept_：截距项。

n_iter_：每个类的迭代次数。

LogisticRegression的方法

fit(X,y[,sample_weight])：模型训练。参数X，y为训练数据，也可以通过sample_weight设置每个样本的权重。

predict(X)：返回X对应的预测值（类别标签）

predict_log_proba(X)：返回X对应的预测值（每个类别对应的概率的log值）

predict_proba(X)：返回X对应的预测值（每个类别对应的概率）

decision_function(X)：返回X对应的预测值（置信值，样本到决策超平面的带符号距离）

score(X,y[,sample_weight])：评估模型预测性能，返回模型预测的正确率。

densify()：如果之前将系数举证变成了稀疏模式，再将其变回稠密模式（fit函数的格式）

sparsify()：将系数矩阵变成了系数模式

LogisticRegression VS. LogisticRegressionCV

给定一个正则参数C：LogisticRegression

class sklearn.linear_model.LogisticRegression(penalty=’l2’, dual=False, tol=0.0001, C=1.0, fit_interce pt=True, intercept_scaling=1, class_weight=None, random_state=None, solver=’liblinear’, max_iter= 100, multi_class=’ovr’, verbose=0, warm_start=False, n_jobs=1)

在一组正则参数CS中找最佳的C：LogisticRegressionCV

class sklearn.linear_model.LogisticRegressionCV(Cs=10, fit_intercept=True, cv=None, dual=False, penalty=’l2’, scoring=None, solver=’lbfgs’, tol=0.0001, max_iter=100, class_weight=None, n_jobs=1, verbose=0, refit=True, i ntercept_scaling=1.0, multi_class=’ovr’, random_state=None)

额外与CV有关的参数：

Cs：在区间的log域均匀取Cs个值作为正则参数C的搜索空间。

cv：交叉验证划分策略。

注意：

默认的slover变成了‘lbfgs’

对多类分类问题，采用的是'ovr'的方式，用交叉验证得到每个类的正则参数。

SGDClassifier

类似SGDRegressor，Scikit-Learn中的实现了随机梯度下降分类：SGDClassifier

SGDClassifier对于大数据量训练集（样本数，特征数目）问题合适。

class sklearn.linear_model.SGDClassifier(loss=’hinge’, penalty=’l2’, alpha=0.0001, l1_ratio=0.15, fit_interc ept=True, max_iter=None, tol=None, shuffle=True, verbose=0, epsilon=0.1, n_jobs=1, random_state=Non e, learning_rate=’optimal’, eta0=0.0, power_t=0.5, class_weight=None, warm_start=False, average=False, n_iter=None))