机器学习-LogisticRegression逻辑回归算法

最新推荐文章于 2023-02-13 03:57:24 发布

NoOne-csdn

最新推荐文章于 2023-02-13 03:57:24 发布

阅读量766

点赞数

分类专栏： ml

ml 专栏收录该内容

3 篇文章 1 订阅

订阅专栏

logistic回归又称logistic回归分析，是一种广义的线性回归分析模型，常用于数据挖掘，疾病自动诊断，经济预测等领域。例如，探讨引发疾病的危险因素，并根据危险因素预测疾病发生的概率等。以胃癌病情分析为例，选择两组人群，一组是胃癌组，一组是非胃癌组，两组人群必定具有不同的体征与生活方式等。因此因变量就为是否胃癌，值为“是”或“否”，自变量就可以包括很多了，如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的，也可以是分类的。然后通过logistic回归分析，可以得到自变量的权重，从而可以大致了解到底哪些因素是胃癌的危险因素。同时根据该权值可以根据危险因素预测一个人患癌症的可能性。

逻辑回归算法（LogisticRegression）虽然是线性回归算法，但是其它线性回归有所不同，逻辑回归的预测结果只有两种，即true（1）和false（0）。因此，Logistic regression ( 逻辑回归 ) ，尽管它的名字是回归，是一个用于分类的线性模型而不是用于回归。所以，逻辑回归算法往往适用于数据的分类。
那么要想数据将数据的拟合结果映射到1和0上，就需要构造一个函数，使得该函数的结果只有0、1。事实上，逻辑回归算法的拟合函数称为sigmond函数，该函数的输出值只有0、1，而且是一个平滑的函数。我们又称该函数为逻辑函数。该函数的表达式如下：

在这里插入图片描述

4 损失函数

损失函数，通俗讲，就是衡量真实值和预测值之间差距的函数。所以，我们希望这个函数越小越好。在这里，最小损失是0。

以二分类（0，1）为例：

当真值为1，模型的预测输出为1时，损失最好为0，预测为0是，损失尽量大。

同样的，当真值为0，模型的预测输出为0时，损失最好为0，预测为1是，损失尽量大。

所以，我们尽量使损失函数尽量小，越小说明预测的越准确。

这个损失函数为
在这里插入图片描述

所以，我们压缩之后，预测y在0-1之间。我们利用这个损失函数，尽量使这个损失小，就能达到很好的效果。

我们把这两个损失综合起来：
在这里插入图片描述
y就是标签，分别取0，1，看看是不是我们前面写的那两个损失函数。

对于m个样本，总的损失：
在这里插入图片描述
这个式子中，m是样本数，y是标签，取值0或1，i表示第i个样本，f(x)表示预测的输出。

不过，当损失过于小时，也就是模型能拟合全部/绝大部分的数据，就有可能出现过拟合。这种损失最小是经验风险最小，为了不让模型过拟合，我们又引入了其他的东西，来尽量减小过拟合，就是大家所说的结构风险损失。

结构经验风险常用的是正则化，L0，L1，L2正则化
5 sklearn中的应
sklearn.linear_model.LogisticRegression(penalty=l2, # 惩罚项，可选l1,l2，对参数约束，减少过拟合风险 dual=False, # 对偶方法（原始问题和对偶问题），用于求解线性多核（liblinear)的L2的惩罚项上。样本数大于特征数时设置False tol=0.0001, # 迭代停止的条件，小于等于这个值停止迭代，损失迭代到的最小值。 C=1.0, # 正则化系数λ的倒数，越小表示越强的正则化。 fit_intercept=True, # 是否存在截距值，即b intercept_scaling=1, # class_weight=None, # 类别的权重，样本类别不平衡时使用，设置balanced会自动调整权重。为了平横样本类别比例，类别样本多的，权重低，类别样本少的，权重高。 random_state=None, # 随机种子 solver=’liblinear’, # 优化算法的参数，包括newton-cg,lbfgs,liblinear,sag,saga,对损失的优化的方法 max_iter=100,# 最大迭代次数， multi_class=’ovr’,# 多分类方式，有‘ovr','mvm' verbose=0, # 输出日志，设置为1，会输出训练过程的一些结果 warm_start=False, # 热启动参数，如果设置为True,则下一次训练是以追加树的形式进行（重新使用上一次的调用作为初始化） n_jobs=1 # 并行数，设置为1，用1个cpu运行，设置-1，用你电脑的所有cpu运行程序 )

参考：https://blog.csdn.net/ustbbsy/article/details/80423294

NoOne-csdn

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
机器学习-LogisticRegression逻辑回归算法

logistic回归又称logistic回归分析，是一种广义的线性回归分析模型，常用于数据挖掘，疾病自动诊断，经济预测等领域。例如，探讨引发疾病的危险因素，并根据危险因素预测疾病发生的概率等。以胃癌病情分析为例，选择两组人群，一组是胃癌组，一组是非胃癌组，两组人群必定具有不同的体征与生活方式等。因此因变量就为是否胃癌，值为“是”或“否”，自变量就可以包括很多了，如年龄、性别、饮食习惯、幽门螺杆菌感...
复制链接

扫一扫