【Task2】逻辑回归算法梳理

最新推荐文章于 2021-03-26 20:50:43 发布

qq_34210843

最新推荐文章于 2021-03-26 20:50:43 发布

阅读量367

点赞数

文章标签：学习笔记

本文链接：https://blog.csdn.net/qq_34210843/article/details/98984081

版权

1、逻辑回归与线性回归的联系与区别

(1)分类与回归:回归模型就是预测一个连续变量(如降水量，价格等)。在分类问题中，预测属于某类的概率，可以看成回归问题。这可以说是使用回归算法的分类方法。

(2)输出:直接使用线性回归的输出作为概率是有问题的，因为其值有可能小于0或者大于1,这是不符合实际情况的。逻辑回归的输出正是[0,1]区间。见下图，

(3)参数估计方法：线性回归中使用的是最小化平方误差损失函数，对偏离真实值越远的数据惩罚越严重。假如使用线性回归对{0,1}二分类问题做预测，则一个真值为1的样本，其预测值为50，那么将会对其产生很大的惩罚，这也和实际情况不符合，更大的预测值说明为1的可能性越大，而不应该惩罚的越严重。逻辑回归使用对数似然函数进行参数估计，使用交叉熵作为损失函数，对预测错误的惩罚是随着输出的增大，逐渐逼近一个常数。也正是因为使用的参数估计的方法不同，线性回归模型更容易受到异常值(outlier)的影响，有可能需要不断变换阈值(threshold)。

(4)参数解释: 线性回归中，独立变量的系数解释就是保持其他变量不变时，改变单个变量因变量的改变量。逻辑回归中，自变量的系数的解释要看选用的概率分布是什么。

2、逻辑回归的原理

（1）什么是逻辑回归？

和很多其他机器学习算法一样，逻辑回归也是从统计学中借鉴来的，尽管名字里有回归，但它不是一个需要预测连续结果的回归算法。与之相反，Logistic 回归是二分类任务的首选方法。它输出一个 0 到 1 之间的离散二值结果。简单来说，它的结果不是 1 就是 0。癌症检测算法可看做是 Logistic 回归问题的一个简单例子，这种算法输入病理图片并且应该辨别患者是患有癌症（1）或没有癌症（0）。

（2）如何工作？

Logistic 回归通过使用其固有的 logistic 函数估计概率，来衡量因变量（我们想要预测的标签）与一个或多个自变量（特征）之间的关系。然后这些概率必须二值化才能真地进行预测。这就是 logistic 函数的任务，也称为 Sigmoid 函数。Sigmoid 函数是一个 S 形曲线，它可以将任意实数值映射到介于 0 和 1 之间的值，但并不能取到 0或1。然后使用阈值分类器将 0 和 1 之间的值转换为 0 或 1。下面的图片说明了 logistic 回归得出预测所需的所有步骤。

下面是 logistic 函数（sigmoid 函数）的图形表示：

3、逻辑回归损失函数推导及优化

(1) 求代价函数

概率综合起来写成：

取似然函数为：

对数似然函数为：

最大似然估计就是求使l(θ)取最大值时的θ，其实这里可以使用梯度上升法求解，求得的θ就是要求的最佳参数。在Andrew Ng的课程中将J(θ)取为下式，即：

（2）梯度下降法求解最小值

θ更新过程可以写成：

4、正则化与模型评估指标

（1）过拟合问题

过拟合即是过分拟合了训练数据，使得模型的复杂度提高，繁华能力较差（对未知数据的预测能力）。下面左图即为欠拟合，中图为合适的拟合，右图为过拟合。

（2）过拟合主要原因：过拟合问题往往源自过多的特征。

解决方法：

1）减少特征数量（减少特征会失去一些信息，即使特征选的很好）

• 可用人工选择要保留的特征；

• 模型选择算法；

2）正则化（特征较多时比较有效）

• 保留所有特征，但减少θ的大小

3）正则化方法

正则化是结构风险最小化策略的实现，是在经验风险上加一个正则化项或惩罚项。正则化项一般是模型复杂度的单调递增函数，模型越复杂，正则化项就越大。

正则项可以取不同的形式，在回归问题中取平方损失，就是参数的L2范数，也可以取L1范数。取平方损失时，模型的损失函数变为：

lambda是正则项系数：

• 如果它的值很大，说明对模型的复杂度惩罚大，对拟合数据的损失惩罚小，这样它就不会过分拟合数据，在训练数据上的偏差较大，在未知数据上的方差较小，但是可能出现欠拟合的现象；

• 如果它的值很小，说明比较注重对训练数据的拟合，在训练数据上的偏差会小，但是可能会导致过拟合。正则化后的梯度下降算法θ的更新变为：

5、逻辑回归的优缺点

优点：

1）速度快，适合二分类问题

2）简单易于理解，直接看到各个特征的权重

3）能容易地更新模型吸收新的数据

缺点：对数据和场景的适应能力有局限性，不如决策树算法适应性那么强

6、样本不均衡问题解决办法

（1）可以扩大数据集吗？

当遇到类别不均衡问题时，首先应该想到，是否可能再增加数据（一定要有小类样本数据），更多的数据往往战胜更好的算法。因为机器学习是使用现有的数据多整个数据的分布进行估计，因此更多的数据往往能够得到更多的分布信息，以及更好分布估计。即使再增加小类样本数据时，又增加了大类样本数据，也可以使用放弃一部分大类数据（即对大类数据进行欠采样）来解决。

（2）尝试其它评价指标

从前面的分析可以看出，准确度这个评价指标在类别不均衡的分类任务中并不能work，甚至进行误导（分类器不work，但是从这个指标来看，该分类器有着很好的评价指标得分）。因此在类别不均衡分类任务中，需要使用更有说服力的评价指标来对分类器进行评价。如何对不同的问题选择有效的评价指标参见这里。

混淆矩阵(Confusion Matrix)：使用一个表格对分类器所预测的类别与其真实的类别的样本统计，分别为：TP、FN、FP与TN。

精确度(Precision)

召回率(Recall)

F1得分(F1 Score)：精确度与找召回率的加权平均。

特别是：

Kappa (Cohen kappa)

ROC曲线(ROC Curves)：见Assessing and Comparing Classifier Performance with ROC Curves

（3）对数据集进行重采样

可以使用一些策略该减轻数据的不平衡程度。该策略便是采样(sampling)，主要有两种采样方法来降低数据的不平衡性。

对小类的数据样本进行采样来增加小类的数据样本个数，即过采样（over-sampling ，采样的个数大于该类样本的个数）。

对大类的数据样本进行采样来减少该类数据样本的个数，即欠采样（under-sampling，采样的次数少于该类样本的个素）。采样算法往往很容易实现，并且其运行速度快，并且效果也不错。

一些经验法则：

考虑对大类下的样本（超过1万、十万甚至更多）进行欠采样，即删除部分样本；

考虑对小类下的样本（不足1为甚至更少）进行过采样，即添加部分样本的副本；

考虑尝试随机采样与非随机采样两种采样方法；

考虑对各类别尝试不同的采样比例，比一定是1:1，有时候1:1反而不好，因为与现实情况相差甚远；

考虑同时使用过采样与欠采样。

（4）尝试产生人工数据样本

一种简单的人工样本数据产生的方法便是，对该类下的所有样本每个属性特征的取值空间中随机选取一个组成新的样本，即属性值随机采样。你可以使用基于经验对属性值进行随机采样而构造新的人工样本，或者使用类似朴素贝叶斯方法假设各属性之间互相独立进行采样，这样便可得到更多的数据，但是无法保证属性之前的线性关系（如果本身是存在的）。

有一个系统的构造人工数据样本的方法SMOTE(Synthetic Minority Over-sampling Technique)。SMOTE是一种过采样算法，它构造新的小类样本而不是产生小类中已有的样本的副本，即该算法构造的数据是新样本，原数据集中不存在的。该基于距离度量选择小类别下两个或者更多的相似样本，然后选择其中一个样本，并随机选择一定数量的邻居样本对选择的那个样本的一个属性增加噪声，每次处理一个属性。这样就构造了更多的新生数据。具体可以参见原始论文。

这里有SMOTE算法的多个不同语言的实现版本：

Python: UnbalancedDataset模块提供了SMOTE算法的多种不同实现版本，以及多种重采样算法。

R: DMwR package。

Weka: SMOTE supervised filter。

（5）尝试不同的分类算法

强烈建议不要对待每一个分类都使用自己喜欢而熟悉的分类算法。应该使用不同的算法对其进行比较，因为不同的算法使用于不同的任务与数据。具体可以参见“Why you should be Spot-Checking Algorithms on your Machine Learning Problems”。

决策树往往在类别不均衡数据上表现不错。它使用基于类变量的划分规则去创建分类树，因此可以强制地将不同类别的样本分开。目前流行的决策树算法有：C4.5、C5.0、CART和Random Forest等。

（6）尝试对模型进行惩罚

你可以使用相同的分类算法，但是使用一个不同的角度，比如你的分类任务是识别那些小类，那么可以对分类器的小类样本数据增加权值，降低大类样本的权值（这种方法其实是产生了新的数据分布，即产生了新的数据集，译者注），从而使得分类器将重点集中在小类样本身上。一个具体做法就是，在训练分类器时，若分类器将小类样本分错时额外增加分类器一个小类样本分错代价，这个额外的代价可以使得分类器更加“关心”小类样本。如penalized-SVM和penalized-LDA算法。

Weka中有一个惩罚模型的通用框架CostSensitiveClassifier，它能够对任何分类器进行封装，并且使用一个自定义的惩罚矩阵对分错的样本进行惩罚。

如果你锁定一个具体的算法时，并且无法通过使用重采样来解决不均衡性问题而得到较差的分类结果。这样你便可以使用惩罚模型来解决不平衡性问题。但是，设置惩罚矩阵是一个复杂的事，因此你需要根据你的任务尝试不同的惩罚矩阵，并选取一个较好的惩罚矩阵。

（7）尝试一个新的角度理解问题

我们可以从不同于分类的角度去解决数据不均衡性问题，我们可以把那些小类的样本作为异常点(outliers)，因此该问题便转化为异常点检测(anomaly detection)与变化趋势检测问题(change detection)。

异常点检测即是对那些罕见事件进行识别。如通过机器的部件的振动识别机器故障，又如通过系统调用序列识别恶意程序。这些事件相对于正常情况是很少见的。

变化趋势检测类似于异常点检测，不同在于其通过检测不寻常的变化趋势来识别。如通过观察用户模式或银行交易来检测用户行为的不寻常改变。

将小类样本作为异常点这种思维的转变，可以帮助考虑新的方法去分离或分类样本。这两种方法从不同的角度去思考，让你尝试新的方法去解决问题。

（8）尝试创新

仔细对你的问题进行分析与挖掘，是否可以将你的问题划分成多个更小的问题，而这些小问题更容易解决。你可以从这篇文章In classification, how do you handle an unbalanced training set?中得到灵感。例如：

将你的大类压缩成小类；

使用One Class分类器（将小类作为异常点）；

使用集成方式，训练多个分类器，然后联合这些分类器进行分类；

….
7. sklearn参数

qq_34210843

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【Task2】逻辑回归算法梳理

1、逻辑回归与线性回归的联系与区别(1)分类与回归:回归模型就是预测一个连续变量(如降水量，价格等)。在分类问题中，预测属于某类的概率，可以看成回归问题。这可以说是使用回归算法的分类方法。(2)输出:直接使用线性回归的输出作为概率是有问题的，因为其值有可能小于0或者大于1,这是不符合实际情况的。逻辑回归的输出正是[0,1]区间。见下图，(3)参数估计方法：线性回归中使用的是最小化平...
复制链接

扫一扫