Logistic回归问题

最新推荐文章于 2024-08-14 17:14:53 发布

若若弱弱弱

最新推荐文章于 2024-08-14 17:14:53 发布

阅读量8.6k

点赞数

本文链接：https://blog.csdn.net/Annranshina/article/details/80993740

版权

- 拟解决基本问题描述

概述：
使用Logistic回归来预测患有疝气病的马的存活问题，这里的数据包括368个样本和28个特征，疝气病是描述马胃肠痛的术语，然而，这种病并不一定源自马的胃肠问题，其他问题也可能引发疝气病，该数据集中包含了医院检测马疝气病的一些指标，有的指标比较主观，有的指标难以测量，例如马的疼痛级别。另外，除了部分指标主观和难以测量之外，该数据还存在一个问题，数据集中有30%的值是缺失的。
数据情况：
这里写图片描述

数据来源：http://archive.ics.uci.edu/ml/datasets/Horse+Colic

- 数据准备与数据预处理

本数据中数据的确实值很多，所以必须进行恰当的预处理。
数据中的缺失一般处理方式：
（1）使用可用特征的均值来填补缺失值；
（2）使用特征值来填补缺失值，如-1；
（3）忽略有缺失值的样本；
（4）使用相似样本的均值填补缺少值；
（5）使用另外的机器学习算法预测缺失值。

现在我们要要用的数据集进行预处理，使其可以顺利地使用分类算法。
在预处理阶段需要做两件事：
（1）所有的缺失值必须用一个实数值来替换，因为我们使用的Numpy数据类型不允许包含缺失值，这里选择实数0来替换所有缺失值，恰好能适用于Logistic回归。另外，由于Sigmoid(0)=0.5，即它对结果的预测不具有任何的倾向性，因此上述做法不会对误差项造成任何影响。基于上述原因，将缺失值用0代替既可以保留现有数据，也不需要对优化算法进行修改。回归系数的更新公式如下：
weights=weights+alpha*error*dataMatrix[randIndex]
如果dataMatrix的某特征对应值为0，那么该特征的系数将不做更新，即：
weights=weights
（2）如果在测试数据集中发现一条数据的类别标签已经缺失，那么我们的简单做法是将该条数据丢弃。这是因为类别标签与特征不同，很难确定采用某个合适的值来替换。

模型基本原理与算法实现

Losgistic回归：
又称logistic回归分析，主要在流行病学中应用较多，比较常用的情形是探索某疾病的危险因素，根据危险因素预测某疾病发生的概率，等等。例如，想探讨胃癌发生的危险因素，可以选择两组人群，一组是胃癌组，一组是非胃癌组，两组人群肯定有不同的体征和生活方式等。这里的因变量就是是否胃癌，即“是”或“否”，为两分类变量，自变量就可以包括很多了，例如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的，也可以是分类的。通过logistic回归分析，就可以大致了解到底哪些因素是胃癌的危险因素。
Logistic回归模型的适用条件：
1 因变量为二分类的分类变量或某事件的发生率，并且是数值型变量。但是需要注意，重复计数现象指标不适用于Logistic回归。
2 残差和因变量都要服从二项分布。二项分布对应的是分类变量，所以不是正态分布，进而不是用最小二乘法，而是最大似然法来解决方程估计和检验问题。
3 自变量和Logistic概率是线性关系
4 各观测对象间相互独立。
原理：
如果直接将线性回归的模型扣到Logistic回归中，会造成方程二边取值区间不同和普遍的非直线关系。因为Logistic中因变量为二分类变量，某个概率作为方程的因变量估计值取值范围为0-1，但是，方程右边取值范围是无穷大或者无穷小。所以，才引入Logistic回归。
图像：
【这里写图片描述】

【】

【Logistic 映射】

测试方法与结果

这里写图片描述
10次迭代之后的平均值错误率为37%，事实上，这个结果并不差，因为有30%的数据缺失。
总结
logistic回归用途是极为广泛的，因为它与多重线性回归相比有很多的优势，所以几乎已经成了流行病学和医学中最常用的分析方法。且算是最成功也是应用最广的。
优缺点
优点：计算代价不高，易于理解和实现
缺点：容易欠拟合，分类精度不高。