本文链接：https://blog.csdn.net/weixin_43309755/article/details/85528174

引言

上节我们介绍了很多线性回归模型，如何用线性模型做分类任务呢？是不是可以将线性回归模型的预测值和到分类任务的标记联系起来呢？

逻辑斯提回归

对于一个二分类任务，输出标记y为{0,1}，而线性回归模型产生的预测值z为全体实数，我们想把z转换成0/1值。我们首先想到是“单位阶跃函数”。

利用线性回归模型产生预测值z，经过单位阶跃函数做变换，如果z<=0，就归为负类，若z>0就归为正类。但单位阶跃函数性质不好，不连续。我们用对数几率函数（也叫sigmoid函数）进行替代：

函数图像为：

这样就将预测值z映射到（0,1）之前，那么怎么进行分类呢？同样是：如果z<=0，就归为负类，若z>0就归为正类。映射到（0,1）还有一个好处是，可以看成近似的概率。例如y=0.8，就说它归为正类的概率为0.8。

上一节讲到我们的线性模型为;

将偏置项和权重系数合并：

其中：

代入到对数几率函数中：

下标sigmoid，表示映射函数为sigmoid函数。这就是逻辑斯提回归模型。

那么我们如何求解参数W呢？

由对数函数的性质可知：

上式即为在已知样本x和参数θ的情况下，样本x属性正样本(y=1)和负样本(y=0)的条件概率。理想状态下，根据上述公式，求出各个点的概率均为1，也就是完全分类都正确。但是考虑到实际情况，样本点的概率越接近于1，其分类效果越好。比如一个样本属于正样本的概率为0.51，那么我们就可以说明这个样本属于正样本。另一个样本属于正样本的概率为0.99，那么我们也可以说明这个样本属于正样本。但是显然，第二个样本概率更高，更具说服力。我们可以把上述两个概率公式合二为一：

合并出来的Cost，我们称之为代价函数(Cost Function)。当y等于1时，(1-y)项(第二项)为0；当y等于0时，y项(第一项)为0。为了简化问题，我们对整个表达式求对数，(将指数问题对数化是处理数学问题常见的方法)：

这个代价函数，是对于一个样本而言的。给定一个样本，我们就可以通过这个代价函数求出，样本所属类别的概率，而这个概率越大越好，所以也就是求解这个代价函数的最大值。既然概率出来了，那么最大似然估计也该出场了。假定样本与样本之间相互独立，那么整个样本集生成的概率即为所有样本生成概率的乘积，再将公式对数化，便可得到如下公式：

其中，m为样本的总数，y(i)表示第i个样本的类别，x(i)表示第i个样本，需要注意的是W是多维向量，x(i)也是多维向量。

接下来的问题是求解W使得上式最小、

通过一连串的分析，可以看出一个机器学习算法其实只有两部分

模型从输入特征x预测输入y的那个函数h(x)
目标函数 目标函数取最小(最大)值时所对应的参数值，就是模型的参数的最优值。很多时候我们只能获得目标函数的局部最小(最大)值，因此也只能得到模型参数的局部最优值。

梯度下降算法

上节介绍的线性回归模型，能够通过闭式方程直接算出最适合训练集的模型参数。这里我们介绍另一种方法：梯度下降，通过迭代优化，逐渐调整模型参数直至到达理想的情况。这里介绍梯度下降和变体随机梯度下降。

我们先看个简单的求极小值的例子。

来吧，做到送分题。这个函数的极值怎么求？它的函数图像为：

求导数，令其为0，解出x即可。

但是实际任务的函数不会像上面这么简单，就算求出了函数的导数，也很难精确计算出函数的极值。此时我们就可以用迭代的方法来做。就像爬坡一样，一点一点逼近极值。这种寻找最佳拟合参数的方法，就是最优化算法。爬坡这个动作用数学公式表达即为：

对我们的函数而言就是：

迭代公式为：

其中n为学习率，学习率越高，迈的步子越大。

当梯度为0或到达一定迭代次数后，算法就会停止。

梯度下降算法有个问题，可能只会到达局部最优，而不是全局最优。

算法到达B点就会停止，不会找到最优解C 。

随机梯度下降

梯度下降算法每次更新权重时都需要遍历整个数据集，这样在数据集很大时使得计算复杂度太高，改进方法是一次仅用一个样本点更新权重系数，这就叫随机梯度下降算法。因此每次采用一个样本，它比梯度下降不稳定，不断的上上下下，但整体看，还是慢慢下降，最终接近最小值。因为它不稳定也带来了一个优点：能跳出局部最优。

在sklearn中，可以使用SGDRegressor来实现回归任务的随机梯度下降。

以上节线性回归为例，使用随机梯度下降：

参数：

loss：损失函数，默认为平方误差，可选项：‘squared_loss’, ‘huber’, ‘epsilon_insensitive’, or ‘squared_epsilon_insensitive’

‘squared_loss’：平方误差

“huber”：修正了“squared_loss”，通过从平方转换到基于epsilon距离的线性损失，减少了对异常值的校正。

epsilon_insensitive：epsilon_insensitive’ 忽略小于 epsilon的误差。使用的是SVR的损失函数。

'squared_epsilon_insensitive：上面的平方损失

penalty:惩罚项，可选项：‘none’, ‘l2’, ‘l1’, or ‘elasticnet’

alpha：常数乘以正则化项。默认值为0.0001，当设置为“最优”时，也用于计算learning_rate。不常用。

l1_ratio：elasticnet弹性网络中l1正则项的程度

fit_intercept：偏置项

max_iter：最大迭代次数

tol：容忍误差

shuffle：训练数据是否应该在每个epochs之后重新洗牌。默认值为True。

verbose：不常用

epsilon：只有当huber’, ‘epsilon_insensitive’, or ‘squared_epsilon_insensitive’时可用，对于“huber”来说，它决定了一个阈值，在这个阈值内，不必准确预测。对于epsilon_insensitive’，如果当前的预测与正确的标记之间的差异小于这个阈值，则忽略它们。

random_state:种子生成器

learning_rate;学习率，可选‘constant’，‘optimal’:invscaling’，‘adaptive’

constant:eta = eta0

‘optimal’:1.0 / (alpha * (t + t0))其中t0由Leon Bottou提出的启发式算法选择。

invscaling:eta0 / pow(t, power_t)

adaptive:自适应改变eta

eta0:学习率，在‘constant’，‘’invscaling’，‘adaptive’下可用

power_t:逆标度学习速率的指数

early_stopping:当验证分数没有提高时，是否使用早期停止终止训练

validation_fraction：训练集留给验证集的部分，（0,1）直接，且early_stopping设为True

n_iter_no_change；在early stopping前没有提高性能的迭代次数

warm_start：是否重新开始

average：当设置为True时，计算SGD的平均权重，并将结果存储在coef_属性中

n_iter：迭代次数，将要移除在0.21

可算写完了，参数较多，很多也不常用。

属性：

用上节的线性数据为例：

import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import SGDRegressor
'''
创建数据集
'''
#rand(100,1)产生100*1的矩阵，数为0到1的随机数
X = 2 * np.random.rand(100,1)
#randn(100，1)产生100*1的矩阵，数为正态分布随机数
y = 4 + 3*X + np.random.randn(100,1)

lin_reg = LinearRegression()
lin_reg.fit(X,y)
print('线性回归',lin_reg.coef_,lin_reg.intercept_)

sgd_reg = SGDRegressor(eta0=0.1,max_iter=500)
sgd_reg.fit(X,y)
print('随机梯度回归',sgd_reg.coef_,sgd_reg.intercept_)

结果：

逻辑斯提回归实战

前面我们介绍了逻辑斯提回归算法的原理和解法，接下来进行运用。首先还是先介绍超参数：

penalty：惩罚项，可选L1,L1, ‘newton-cg’, ‘sag’ and ‘lbfgs’ solvers 只支持 l2

dual:对偶仅适用于用''liblinear''solvers 的L2。当样本数大于特征数默认False

tol:容忍误差

C：正则化程度,C越小，正则化程度越大

fit_intercept：是否存在截距或偏差，bool类型，默认为True。
intercept_scaling：仅在solver为"liblinear"，且fit_intercept设置为True时有用。float类型，默认为1。
class_weight：用于标示分类模型中各种类型的权重，可以是一个字典或者'balanced'字符串，默认为不输入，也就是不考虑权重，即为None。如果选择输入的话，可以选择balanced让类库自己计算类型权重，或者自己输入各个类型的权重。举个例子，比如对于0,1的二元模型，我们可以定义class_weight={0:0.9,1:0.1}，这样类型0的权重为90%，而类型1的权重为10%。如果class_weight选择balanced，那么类库会根据训练样本量来计算权重。某种类型样本量越多，则权重越低，样本量越少，则权重越高。当class_weight为balanced时，类权重计算方法如下：n_samples / (n_classes * np.bincount(y))。n_samples为样本数，n_classes为类别数量，np.bincount(y)会输出每个类的样本数，例如y=[1,0,0,1,1],则np.bincount(y)=[2,3]。
- 那么class_weight有什么作用呢？
  - 在分类模型中，我们经常会遇到两类问题：
  - 1.第一种是误分类的代价很高。比如对合法用户和非法用户进行分类，将非法用户分类为合法用户的代价很高，我们宁愿将合法用户分类为非法用户，这时可以人工再甄别，但是却不愿将非法用户分类为合法用户。这时，我们可以适当提高非法用户的权重。
  - 2. 第二种是样本是高度失衡的，比如我们有合法用户和非法用户的二元样本数据10000条，里面合法用户有9995条，非法用户只有5条，如果我们不考虑权重，则我们可以将所有的测试集都预测为合法用户，这样预测准确率理论上有99.95%，但是却没有任何意义。这时，我们可以选择balanced，让类库自动提高非法用户样本的权重。提高了某种分类的权重，相比不考虑权重，会有更多的样本分类划分到高权重的类别，从而可以解决上面两类问题。
random_state：随机数种子，仅solver为sag,liblinear时有用。
solver：优化算法选择参数，只有五个可选参数，即newton-cg,lbfgs,liblinear,sag,saga。默认为liblinear。solver参数决定了我们对逻辑回归损失函数的优化方法，有四种算法可以选择，分别是：
- liblinear：使用了开源的liblinear库实现，内部使用了坐标轴下降法来迭代优化损失函数。
- lbfgs：拟牛顿法的一种，利用损失函数二阶导数矩阵即海森矩阵来迭代优化损失函数。
- newton-cg：也是牛顿法家族的一种，利用损失函数二阶导数矩阵即海森矩阵来迭代优化损失函数。
- sag：随机平均梯度下降。
- saga：线性收敛的随机优化算法的的变种。
- 总结：
  - liblinear适用于小数据集，而sag和saga适用于大数据集因为速度更快。
  - 对于多分类问题，只有newton-cg,sag,saga和lbfgs能够处理多项损失，而liblinear受限于一对剩余(OvR)。啥意思，就是用liblinear的时候，如果是多分类问题，得先把一种类别作为一个类别，剩余的所有类别作为另外一个类别。一次类推，遍历所有类别，进行分类。
  - newton-cg,sag和lbfgs这三种优化算法时都需要损失函数的一阶或者二阶连续导数，因此不能用于没有连续导数的L1正则化，只能用于L2正则化。而liblinear和saga通吃L1正则化和L2正则化。
  - 同时，sag每次仅仅使用了部分样本进行梯度迭代，所以当样本量少的时候不要选择它，而如果样本量非常大，比如大于10万，sag是第一选择。但是sag不能用于L1正则化，所以当你有大量的样本，又需要L1正则化的话就要自己做取舍了。要么通过对样本采样来降低样本量，要么回到L2正则化。
  - 从上面的描述，大家可能觉得，既然newton-cg, lbfgs和sag这么多限制，如果不是大样本，我们选择liblinear不就行了嘛！错，因为liblinear也有自己的弱点！我们知道，逻辑回归有二元逻辑回归和多元逻辑回归。对于多元逻辑回归常见的有one-vs-rest(OvR)和one-vs-one(OvO)两种。什么是OvO，举例，对标记{0,1,2}做分类。OvO的策略为：为每对数字训练一个二元分类器：一个区分0,1，一个区分0,2，一个区分1,2。这样每个分类器只需用到所需要的训练集，更稳定，但训练时间长。
  - OvO一般比OvR分类相对准确一些。郁闷的是liblinear只支持OvR，不支持OvO，这样如果我们需要相对精确的多元逻辑回归时，就不能选择liblinear了.
max_iter：算法收敛最大迭代次数，默认为100。仅在正则化优化算法为newton-cg, sag和lbfgs才有用
multi_class：分类方式选择参数，str类型，可选参数为ovr和multinomial，默认为ovr。ovr即前面提到的one-vs-rest(OvR)，而multinomial即前面提到的one-vs-one(OvO)。如果是二元逻辑回归，ovr和multinomial并没有任何区别，区别主要在多元逻辑回归上
OvR相对简单，但分类效果相对略差（这里指大多数样本分布情况，某些样本分布下OvR可能更好）。而OvO分类相对精确，但是分类速度没有OvR快。如果选择了ovr，则4种损失函数的优化方法liblinear，newton-cg,lbfgs和sag都可以选择。但是如果选择了multinomial,则只能选择newton-cg, lbfgs和sag了。
verbose：日志冗长度，默认为0。就是不输出训练过程，1的时候偶尔输出结果，大于1，对于每个子模型都输出。
warm_start：热启动参数，bool类型。默认为False。如果为True，则下一次训练是以追加树的形式进行（重新使用上一次的调用作为初始化）。
n_jobs：并行数。

先利用逻辑斯提回归进行二元分类，以鸢尾花数据集为例：

from sklearn import datasets
'''
创建数据集
'''
iris = datasets.load_iris()
print(list(iris.keys()))
print(iris.target_names,iris.feature_names)

结果：

可见我们有三种标记：setosa,versicolor,virginica.。每个样本有四个特征['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

我们以setosa和versicolor进行二分类。

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
'''
创建数据集
'''
iris = datasets.load_iris()
#采用前两个特征
X = iris['data'][:,:2]
y = iris['target']
setosa = []
versicolor = []
for i in range(len(y)):
    if y[i] == 0:
        setosa.append(X[i])
    elif y[i] == 1:
        versicolor.append(X[i])
setosa = np.array(setosa)
versicolor = np.array(versicolor)
plt.figure()
plt.scatter(setosa[:,0],setosa[:,1],marker='^',label='setosa')
plt.scatter(versicolor[:,0],versicolor[:,1],label='versicolor')
plt.xlabel('sepal length')
plt.ylabel('sepal width')
plt.legend(loc='best')
plt.show()

结果：


'''
二分类
创建数据集
'''
iris = datasets.load_iris()
#采用前两个特征
x = iris['data'][:,:2]
y = iris['target']
X = []
Y = []
for i in range(len(y)):
    if y[i] == 0 or y[i] == 1:
        Y.append(y[i])
        X.append(x[i])  
#训练
log_reg = LogisticRegression(solver='liblinear')
log_reg.fit(np.array(X),np.array(Y))
print(log_reg.predict([[4.5,3]]))

结果：

sepal length=4.5，sepal width=3预测为setosa。

利用逻辑斯提回归进行多元分类：

'''
创建数据集
'''
iris = datasets.load_iris()

x = iris['data']
y = iris['target']

#训练
log_reg = LogisticRegression(solver='lbfgs',multi_class='multinomial')
log_reg.fit(x,y)
print(log_reg.predict([[4.5,3,4,3]]))

结果：