Logistic Regression

最新推荐文章于 2024-01-07 14:58:59 发布

布纸所云

最新推荐文章于 2024-01-07 14:58:59 发布

阅读量226

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/XindiOntheWay/article/details/81463077

版权

机器学习专栏收录该内容

18 篇文章 2 订阅

订阅专栏

Logistic Regression

⟹ l o g P ( y = 1 | x ) 1 - P ( y = 1 | x ) = w T x h w (x) = P (y = 1 | x) = e w T x 1 + e w T x P (y = 0 | x) = 1 1 + e w T x

$\begin{align*} &log\frac{P(y=1|x)}{1-P(y=1|x)}=w^Tx\\ \Longrightarrow \quad &h_w(x)=P(y=1|x)=\frac{e^{w^Tx}}{1+e^{w^Tx}}\\ & P(y=0|x)=\frac{1}{1+e^{w^Tx}} \end{align*}$

对数似然损失函数

Logistic回归使用的是对数似然损失函数（log-likelihood loss function）：

L (Y, P (Y | X)) = - l o g P (Y | X)

$L(Y,P(Y|X))=-logP(Y|X)$
这里写图片描述

logistic回归详解(二）：损失函数（cost function）详解
机器学习（四）从信息论交叉熵的角度看softmax/逻辑回归损失

几何意义（超平面分类）

w T x = l o g p 1 - p, p = P (y = 1 | x)

$w^Tx=log\frac{p}{1-p}, \quad p=P(y=1|x)$
逻辑回归也可以理解是用超平面分类的，其对数似然损失函数为：

L (y, h w (x)) = {- l o g (h w (x)) - l o g (1 - h w (x)) y = 1 y = 0

$L(y,h_w(x))=\left\{ \begin{array}{rcl} -log(h_w(x)) & & y=1\\ -log(1-h_w(x)) & & y=0 \end{array} \right.$
将以上两个表达式合并为一个：

L (y, h w (x)) = - y l o g (h w (x)) - (1 - y) l o g (1 - h w (x))

$L(y,h_w(x))=-ylog(h_w(x))-(1-y)log(1-h_w(x))$
全样本的损失函数为：

L (y, h w (x)) = \sum i = 1 m - y i l o g (h w (x i)) - (1 - y i) l o g (1 - h w (x i))

$L(y,h_w(x))=\sum_{i=1}^{m}-y_ilog(h_w(x_i))-(1-y_i)log(1-h_w(x_i))$
且极大似然函数估计可以写为(这里没看懂)

min - l (θ) = \sum i = 1 n l o g [(2 y i - 1) (y i - h w (x i))]

$\min -l(\theta)=\sum_{i=1}^{n}log[(2y_i-1)(y_i-h_w(x_i))]$

似然函数

L (θ) = \prod i = 1 n p (y i = 1 | x i) y i p (y i = 0 | x i) (1 - y i)

$\begin{align*} &L(\theta)=\prod_{i=1}^{n}p(y_i=1|x_i)^{y_i}p(y_i=0|x_i)^{(1-y_i)}\\ \end{align*}$
令

g (w T x) = 1 1 + e - w T x = s i g m o i d (x)

$g(w^Tx)=\frac{1}{1+e^{-w^Tx}}=sigmoid(x)$

\partial g ( w T x ) \partial w = \partial g ( w T x ) \partial w T x \partial w T x \partial w = e - w T x ( 1 + e - w T x ) 2 x = g (w T x) (1 - g (w T x)) x

$\begin{align*} \frac{\partial g(w^Tx)}{\partial w}&=\frac{\partial g(w^Tx)}{\partial w^Tx}\frac{\partial w^Tx}{\partial w}\\ &=\frac{e^{-w^Tx}}{(1+e^{-w^Tx})^2}x\\ &=g(w^Tx)(1-g(w^Tx))x \end{align*}$

l n (L (θ)) = \sum i = 1 n y i l n (g (w T x i)) + (1 - y i) l n (1 - g (w T x i)) l n ( \partial L ( θ ) ) \partial w = \sum i = 1 n (y i 1 g ( w T x i ) - 1 - y i 1 - g ( w T x i )) g (w T x i) (1 - g (w T x i)) x i = \sum i = 1 n (y i (1 - g (w T x i)) - (1 - y i) g (w T x i)) x i = \sum i = 1 n (y i - g (w T x i)) x i

$\begin{align*} &ln(L(\theta))=\sum_{i=1}^{n}y_iln(g(w^Tx_i))+(1-y_i)ln(1-g(w^Tx_i))\\ &\frac{ln(\partial L(\theta))}{\partial w}=\sum_{i=1}^{n}(y_i\frac{1}{g(w^Tx_i)}-\frac{1-y_i}{1-g(w^Tx_i)})g(w^Tx_i)(1-g(w^Tx_i))x_i\\ &=\sum_{i=1}^{n}(y_i(1-g(w^Tx_i))-(1-y_i)g(w^Tx_i))x_i\\ &=\sum_{i=1}^{n}(y_i-g(w^Tx_i))x_i \end{align*}$

Logistic Vs SVM

Logistic的损失函数是交叉熵，而SVM是利用的hinge Loss。
在Logistic中每个样本都是有贡献的，但是在SVM中只用到了支持向量，对异常值比较敏感。

Logistic regression focuses on maximizing the probability of the data. The farther the data lies from the separating hyperplane (on the correct side), the happier LR is.
An SVM tries to find the separating hyperplane that maximizes the distance of the closest points to the margin (the support vectors). If a point is not a support vector, it doesn’t really matter.

Python 实战

Building A Logistic Regression in Python, Step by Step
调用python的sklearn实现Logistic Reression算法

from numpy import * 
from sklearn.datasets import load_iris     # import datasets

# load the dataset: iris
iris = load_iris() 
samples = iris.data
#print samples 
target = iris.target 

# import the LogisticRegression
from sklearn.linear_model import LogisticRegression 

classifier = LogisticRegression()  # 使用类，参数全是默认的
classifier.fit(samples, target)  # 训练数据来学习，不需要返回值

x = classifier.predict([5, 3, 5, 2.5])  # 测试数据，分类返回标记

print x 

#其实导入的是sklearn.linear_model的一个类：LogisticRegression， 它里面有许多方法
#常用的方法是fit（训练分类模型）、predict（预测测试样本的标记）

#不过里面没有返回LR模型中学习到的权重向量w，感觉这是一个缺陷

sklearn.linear_model.LogisticRegression

class sklearn.linear_model.LogisticRegression(penalty=’l2’, dual=False, tol=0.0001, C=1.0, fit_intercept=True, intercept_scaling=1, class_weight=None, random_state=None, solver=’liblinear’, max_iter=100, multi_class=’ovr’, verbose=0, warm_start=False, n_jobs=1)

LogisticRegression - 参数说明
参数说明如下：

penalty：惩罚项，str类型，可选参数为l1和l2，默认为l2。用于指定惩罚项中使用的规范。newton-cg、sag和lbfgs求解算法只支持L2规范。L1G规范假设的是模型的参数满足拉普拉斯分布，L2假设的模型参数满足高斯分布，所谓的范式就是加上对参数的约束，使得模型更不会过拟合(overfit)，但是如果要说是不是加了约束就会好，这个没有人能回答，只能说，加约束的情况下，理论上应该可以获得泛化能力更强的结果。
dual：对偶或原始方法，bool类型，默认为False。对偶方法只用在求解线性多核(liblinear)的L2惩罚项上。当样本数量>样本特征的时候，dual通常设置为False。
tol：停止求解的标准，float类型，默认为1e-4。就是求解到多少的时候，停止，认为已经求出最优解。
c：正则化系数λ的倒数，float类型，默认为1.0。必须是正浮点型数。像SVM一样，越小的数值表示越强的正则化。
fit_intercept：是否存在截距或偏差，bool类型，默认为True。
intercept_scaling：仅在正则化项为”liblinear”，且fit_intercept设置为True时有用。float类型，默认为1。
class_weight：用于标示分类模型中各种类型的权重，可以是一个字典或者’balanced’字符串，默认为不输入，也就是不考虑权重，即为None。如果选择输入的话，可以选择balanced让类库自己计算类型权重，或者自己输入各个类型的权重。举个例子，比如对于0,1的二元模型，我们可以定义class_weight={0:0.9,1:0.1}，这样类型0的权重为90%，而类型1的权重为10%。如果class_weight选择balanced，那么类库会根据训练样本量来计算权重。某种类型样本量越多，则权重越低，样本量越少，则权重越高。当class_weight为balanced时，类权重计算方法如下：n_samples / (n_classes * np.bincount(y))。n_samples为样本数，n_classes为类别数量，np.bincount(y)会输出每个类的样本数，例如y=[1,0,0,1,1],则np.bincount(y)=[2,3]。

在分类模型中，我们经常会遇到两类问题：

第二种是样本是高度失衡的，比如我们有合法用户和非法用户的二元样本数据10000条，里面合法用户有9995条，非法用户只有5条，如果我们不考虑权重，则我们可以将所有的测试集都预测为合法用户，这样预测准确率理论上有99.95%，但是却没有任何意义。这时，我们可以选择balanced，让类库自动提高非法用户样本的权重。提高了某种分类的权重，相比不考虑权重，会有更多的样本分类划分到高权重的类别，从而可以解决上面两类问题。
random_state：随机数种子，int类型，可选参数，默认为无，仅在正则化优化算法为sag,liblinear时有用。
solver：优化算法选择参数，只有五个可选参数，即newton-cg,lbfgs,liblinear,sag,saga。默认为liblinear。solver参数决定了我们对逻辑回归损失函数的优化方法，有四种算法可以选择，分别是：
- liblinear：使用了开源的liblinear库实现，内部使用了坐标轴下降法来迭代优化损失函数。
- lbfgs：拟牛顿法的一种，利用损失函数二阶导数矩阵即海森矩阵来迭代优化损失函数。
- newton-cg：也是牛顿法家族的一种，利用损失函数二阶导数矩阵即海森矩阵来迭代优化损失函数。
- sag：即随机平均梯度下降，是梯度下降法的变种，和普通梯度下降法的区别是每次迭代仅仅用一部分的样本来计算梯度，适合于样本数据多的时候。
- saga：线性收敛的随机优化算法的的变重。
  - 总结：
  - liblinear适用于小数据集，而sag和saga适用于大数据集因为速度更快。
  - 对于多分类问题，只有newton-cg,sag,saga和lbfgs能够处理多项损失，而liblinear受限于一对剩余(OvR)。啥意思，就是用liblinear的时候，如果是多分类问题，得先把一种类别作为一个类别，剩余的所有类别作为另外一个类别。一次类推，遍历所有类别，进行分类。
  - newton-cg,sag和lbfgs这三种优化算法时都需要损失函数的一阶或者二阶连续导数，因此不能用于没有连续导数的L1正则化，只能用于L2正则化。而liblinear和saga通吃L1正则化和L2正则化。
  - 同时，sag每次仅仅使用了部分样本进行梯度迭代，所以当样本量少的时候不要选择它，而如果样本量非常大，比如大于10万，sag是第一选择。但是sag不能用于L1正则化，所以当你有大量的样本，又需要L1正则化的话就要自己做取舍了。要么通过对样本采样来降低样本量，要么回到L2正则化。
  - 从上面的描述，大家可能觉得，既然newton-cg, lbfgs和sag这么多限制，如果不是大样本，我们选择liblinear不就行了嘛！错，因为liblinear也有自己的弱点！我们知道，逻辑回归有二元逻辑回归和多元逻辑回归。对于多元逻辑回归常见的有one-vs-rest(OvR)和many-vs-many(MvM)两种。而MvM一般比OvR分类相对准确一些。郁闷的是liblinear只支持OvR，不支持MvM，这样如果我们需要相对精确的多元逻辑回归时，就不能选择liblinear了。也意味着如果我们需要相对精确的多元逻辑回归不能使用L1正则化了。
- max_iter：算法收敛最大迭代次数，int类型，默认为10。仅在正则化优化算法为newton-cg, sag和lbfgs才有用，算法收敛的最大迭代次数
- multi_class：分类方式选择参数，str类型，可选参数为ovr和multinomial，默认为ovr。ovr即前面提到的one-vs-rest(OvR)，而multinomial即前面提到的many-vs-many(MvM)。如果是二元逻辑回归，ovr和multinomial并没有任何区别，区别主要在多元逻辑回归上。
  - OvR和MvM有什么不同？
  - OvR的思想很简单，无论你是多少元逻辑回归，我们都可以看做二元逻辑回归。具体做法是，对于第K类的分类决策，我们把所有第K类的样本作为正例，除了第K类样本以外的所有样本都作为负例，然后在上面做二元逻辑回归，得到第K类的分类模型。其他类的分类模型获得以此类推。
  - 而MvM则相对复杂，这里举MvM的特例one-vs-one(OvO)作讲解。如果模型有T类，我们每次在所有的T类样本里面选择两类样本出来，不妨记为T1类和T2类，把所有的输出为T1和T2的样本放在一起，把T1作为正例，T2作为负例，进行二元逻辑回归，得到模型参数。我们一共需要T(T-1)/2次分类。
  - 可以看出OvR相对简单，但分类效果相对略差（这里指大多数样本分布情况，某些样本分布下OvR可能更好）。而MvM分类相对精确，但是分类速度没有OvR快。如果选择了ovr，则4种损失函数的优化方法liblinear，newton-cg,lbfgs和sag都可以选择。但是如果选择了multinomial,则只能选择newton-cg, lbfgs和sag了。
- verbose：日志冗长度，int类型。默认为0。就是不输出训练过程，1的时候偶尔输出结果，大于1，对于每个子模型都输出。
- warm_start：热启动参数，bool类型。默认为False。如果为True，则下一次训练是以追加树的形式进行（重新使用上一次的调用作为初始化）。
- n_jobs：并行数。int类型，默认为1。1的时候，用CPU的一个内核运行程序，2的时候，用CPU的2个内核运行程序。为-1的时候，用所有CPU的内核运行程序。

参考资料

Logistic Regression 的前世今生（理论篇）
SVM Vs Logistic
概率解释·局部加权回归·Logistic回归
 一切从逻辑回归开始

布纸所云

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Logistic Regression

Logistic Regression⟹logp(y=1|x)1−p(y=1|x)=wTxp(y=1|x)=ewTx1+ewTxp(y=0|x)=11+ewTxlogp(y=1|x)1−p(y=1|x)=wTx⟹p(y=1|x)=ewTx1+ewTxp(y=0|x)=11+ewTx\begin{align*}&amp;amp;amp;amp;amp;amp;amp;log\frac{p(y=1|x)}{1-p(y=1|x)}=w^Tx\\\Lo...
复制链接

扫一扫