《Machine Learning in action》,机器学习实战(笔记)之Logistic regression
使用工具
- Python3.7
- pycharm
- anaconda
- jupyter notebook
使用Sklearn构建Logistic回归分类器
接下来就是使用:Sklearn的Logistic回归分类器!
首先看看sklearn官方的英文文档:
sklearn
sklearn.linear_model模块提供了很多模型供我们使用,比如Logistic回归、Lasso回归、贝叶斯脊回归等,在这里回归我们的主题:Logistic Regressioin。
1. LogisticRegression 参数分析
这个模型,一共有15个参数,下面就是对参数的具体的分析
参数说明:
-
pnealty 惩罚项 : str类型,‘l1’,‘l2’,‘elasticnet’或’none’,可选(默认=‘l2’)
用于指定惩罚中使用的规范。‘newton-cg’,'sag’和’lbfgs’解算器仅支持l2规范。‘elasticnet’仅由’saga’解算器支持。如果’none’(liblinear解算器不支持),则不应用正则化。 -
dual : bool类型,可选(默认= False)双重或原始配方。使用liblinear解算器,双重公式仅实现l2惩罚(规范化)。当n_samples> n_features时,首选dual = False。
-
tol : float类型,optional(默认值= 1e-4)认为停止的时候就是已经求出了最优解。
-
C : float,可选(默认值= 1.0)正则化系数的导数; 必须是正浮点型数。与支持向量机一样,较小的值表示越强的正则化。
-
fit_intercept : bool,optional(默认= True)指定是否应将常量(也称为偏差或截距)添加到决策函数中。
-
intercept_scaling : float,optional(默认值= 1)仅在使用求解器“liblinear”且self.fit_intercept设置为True时有用。在这种情况下,x变为[x,self.intercept_scaling],即具有等于intercept_scaling的常数值的“合成”特征被附加到实例向量。截距变成了。intercept_scaling * synthetic_feature_weight
注意!合成特征权重与所有其他特征一样经受l1 / l2正则化。为了减少正则化对合成特征权重(并因此对截距)的影响,必须增加intercept_scaling。 -
class_weight : dict或’balanced’,可选(默认=无)与分类模型中相关联的权重。如果没有给出,所有分类都应该有一个权重。{class_label: weight}
“平衡”模式使用y的值自动调整与输入数据中的类频率成反比的权重。n_samples / (n_classes * np.bincount(y)) 请注意,如果指定了sample_weight,这些权重将与sample_weight(通过fit方法传递)相乘。 -
random_state : int,RandomState实例或None,可选(默认=无)
- 伪随机数生成器的种子,用于在混洗数据时使用。如果是int,则random_state是随机数生成器使用的种子; 如果是RandomState实例,则random_state是随机数生成器; 如果为None,则随机数生成器是由其使用的RandomState实例np.random。在solver=='sag’或’liblinear’时使用。
-
solver:优化算法选择参数,只有五个可选参数,即newton-cg,lbfgs,liblinear,sag,saga。默认为liblinear。solver参数决定了我们对逻辑回归损失函数的优化方法,有四种算法可以选择,分别是:
- liblinear:使用了开源的liblinear库实现,内部使用了坐标轴下降法来迭代优化损失函数。
- lbfgs:拟牛顿法的一种,利用损失函数二阶导数矩阵即海森矩阵来迭代优化损失函数。
- newton-cg:也是牛顿法家族的一种,利用损失函数二阶导数矩阵即海森矩阵来迭代优化损失函数。
- sag:即随机平均梯度下降,是梯度下降法的变种,和普通梯度下降法的区别是每次迭代仅仅用一部分的样本来计算梯度,适合于样本数据多的时候。
- saga:线性收敛的随机优化算法的的变重。
总结: - liblinear适用于小数据集,而sag和saga适用于大数据集因为速度更快。
- 对于多分类问题,只有newton-cg,sag,saga和lbfgs能够处理多项损失,而liblinear受限于一对剩余(OvR)。啥意思,就是用liblinear的时候,如果是多分类问题,得先把一种类别作为一个类别,剩余的所有类别作为另外一个类别。一次类推,遍历所有类别,进行分类。
- newton-cg,sag和lbfgs这三种优化算法时都需要损失函数的一阶或者二阶连续导数,因此不能用于没有连续导数的L1正则化,只能用于L2正则化。而liblinear和saga通吃L1正则化和L2正则化。
- 同时,sag每次仅仅使用了部分样本进行梯度迭代,所以当样本量少的时候不要选择它,而如果样本量非常大,比如大于10万,sag是第一选择。但是sag不能用于L1正则化,所以当你有大量的样本,又需要L1正则化的话就要自己做取舍了。要么通过对样本采样来降低样本量,要么回到L2正则化。
- 从上面的描述,大家可能觉得,既然newton-cg, lbfgs和sag这么多限制,如果不是大样本,我们选择liblinear不就行了嘛!错,因为liblinear也有自己的弱点!我们知道,逻辑回归有二元逻辑回归和多元逻辑回归。对于多元逻辑回归常见的有one-vs-rest(OvR)和many-vs-many(MvM)两种。而MvM一般比OvR分类相对准确一些。郁闷的是liblinear只支持OvR,不支持MvM,这样如果我们需要相对精确的多元逻辑回归时,就不能选择liblinear了。也意味着如果我们需要相对精确的多元逻辑回归不能使用L1正则化了。
-
max_iter:算法收敛最大迭代次数,int类型,默认为10。仅在正则化优化算法为newton-cg, sag和lbfgs才有用,算法收敛的最大迭代次数。
-
multi_class:分类方式选择参数,str类型,可选参数为ovr和multinomial,默认为ovr。ovr即前面提到的one-vs-rest(OvR),而multinomial即前面提到的many-vs-many(MvM)。如果是二元逻辑回归,ovr和multinomial并没有任何区别,区别主要在多元逻辑回归上。
- OvR和MvM有什么不同?
- OvR的思想很简单,无论你是多少元逻辑回归,我们都可以看做二元逻辑回归。具体做法是,对于第K类的分类决策,我们把所有第K类的样本作为正例,除了第K类样本以外的所有样本都作为负例,然后在上面做二元逻辑回归,得到第K类的分类模型。其他类的分类模型获得以此类推。
- 而MvM则相对复杂,这里举MvM的特例one-vs-one(OvO)作讲解。如果模型有T类,我们每次在所有的T类样本里面选择两类样本出来,不妨记为T1类和T2类,把所有的输出为T1和T2的样本放在一起,把T1作为正例,T2作为负例,进行二元逻辑回归,得到模型参数。我们一共需要T(T-1)/2次分类
- 可以看出OvR相对简单,但分类效果相对略差(这里指大多数样本分布情况,某些样本分布下OvR可能更好)。而MvM分类相对精确,但是分类速度没有OvR快。如果选择了ovr,则4种损失函数的优化方法liblinear,newton-cg,lbfgs和sag都可以选择。但是如果选择了multinomial,则只能选择newton-cg, lbfgs和sag了。
- OvR和MvM有什么不同?
-
verbose : int,optional(默认值= 0)
对于liblinear和lbfgs解释器,将详细设置为任何正数以表示详细程度 -
warm_start :热启动参数 bool,optional(默认= False)
设置为True时,则下一次训练是以追加树的形式进行(重新使用上一次的调用作为初始化)。否则,只需擦除以前的解决方案。对于liblinear解释器没用。请参阅词汇表。 -
n_jobs :并行数 int或None,可选(默认=无)
如果multi_class =‘ovr’“,则在对类进行并行化时使用的CPU核心数。solver无论是否指定了’multi_class’,当设置为’liblinear’ 时,都会忽略此参数。None除非在joblib.parallel_backend 上下文中,否则表示1 。-1表示使用所有处理器。有关详细信息,请参阅词汇表。 -
l1_ratio : float或None,可选(默认=无)
弹性网混合参数。仅使用if 等效于使用,而设置相当于使用。因为,规范项是L1和L2的组合。0 <= l1_ratio <= 1penalty=‘elasticnet’`. Setting ``l1_ratio=0penalty='l2’l1_ratio=1penalty='l1’0 < l1_ratio <1
当然还有一些方法共我们使用,
同时,如果更好的了解这些关于过拟合、正则化、L1范数、L2范数的问题,可以看这位大牛的博客:
http://blog.csdn.net/zouxy09/article/details/24971995
2. 代码使用sklearn
# -*- coding:UTF-8 -*-
from sklearn.linear_model import LogisticRegression
"""
函数说明:使用Sklearn构建Logistic回归分类器
"""
def colicSklearn():
frTrain = open('horseColicTraining.txt')
frTest = open('horseColicTest.txt')
trainingSet = []; trainingLabels = []
testSet = []; testLabels = []
for line in frTrain.readlines():
currLine = line.strip().split('\t')
lineArr = []
for i in range(len(currLine)-1):
lineArr.append(float(currLine[i]))
trainingSet.append(lineArr)
trainingLabels.append(float(currLine[-1]))
for line in frTest.readlines():
currLine = line.strip().split('\t')
lineArr =[]
for i in range(len(currLine)-1):
lineArr.append(float(currLine[i]))
testSet.append(lineArr)
testLabels.append(float(currLine[-1]))
# 这里的solver参数就是最优化参数选项
# 这里选择的就是liblinear,当然火灾后面进行不同的选择算法
# max_iter表示的就是最大的迭代次数
classifier = LogisticRegression(solver='liblinear',max_iter=10).fit(trainingSet, trainingLabels)
test_accurcy = classifier.score(testSet, testLabels) * 100
print('正确率:%f%%' % test_accurcy)
if __name__ == '__main__':
colicSklearn()
运行的结果:
下面我们就改变最优化参数使用随机梯度下降:
# -*- coding:UTF-8 -*-
from sklearn.linear_model import LogisticRegression
"""
函数说明:使用Sklearn构建Logistic回归分类器
"""
def colicSklearn():
frTrain = open('horseColicTraining.txt')
frTest = open('horseColicTest.txt')
trainingSet = []; trainingLabels = []
testSet = []; testLabels = []
for line in frTrain.readlines():
currLine = line.strip().split('\t')
lineArr = []
for i in range(len(currLine)-1):
lineArr.append(float(currLine[i]))
trainingSet.append(lineArr)
trainingLabels.append(float(currLine[-1]))
for line in frTest.readlines():
currLine = line.strip().split('\t')
lineArr =[]
for i in range(len(currLine)-1):
lineArr.append(float(currLine[i]))
testSet.append(lineArr)
testLabels.append(float(currLine[-1]))
# 这里的solver参数就是最优化参数选项
# 这里选择的就是liblinear,当然火灾后面进行不同的选择算法
# max_iter表示的就是最大的迭代次数
#classifier = LogisticRegression(solver='liblinear',max_iter=10).fit(trainingSet, trainingLabels)
'''
下面就是选择sag方法,随机梯度下降方法
同时sag对我们的最大迭代次数是由很高的要求
所以我们将max_iter设置的比较大一点5000
才会使sag收敛
'''
classifier = LogisticRegression(solver='sag', max_iter=5000).fit(trainingSet, trainingLabels)
test_accurcy = classifier.score(testSet, testLabels) * 100
print('正确率:%f%%' % test_accurcy)
if __name__ == '__main__':
colicSklearn()
运行结果:
可以看出效果还是差不多了
所以由于不同的算法对迭代的次数是有着不同的需求,所以应该数据集的具体的情况来选择最优的算法
总结
Logistic回归的优缺点
-
优点:
实现简单,易于理解和实现;计算代价不高,速度很快,存储资源低。
-
缺点:
容易欠拟合,分类精度可能不高。