任务二逻辑回归算法梳理

最新推荐文章于 2019-05-14 18:47:07 发布

qq_43609226

最新推荐文章于 2019-05-14 18:47:07 发布

阅读量201

点赞数

1、逻辑回归与线性回归的联系与区别
参考博客：https://blog.csdn.net/lx_ros/article/details/81263209
2、逻辑回归的原理
如果线性回归的结果输出是一个连续值，而值得范围是无法限定的，那我们没有办法把这个结果值映射为可以帮助我们判断的结果，如果输出结果是（0,1）的一个概率值，就可以很容易判断结果。逻辑回归正是利用了这样一个函数——sigmoid函数：
在这里插入图片描述
其图像如下：

参考博客：https://blog.csdn.net/Julialove102123/article/details/78405261
3、逻辑回归损失函数推导及优化
1）构造预测函数h(x)
Logistic函数（或称为Sigmoid函数），函数形式为

对于线性边界的情况，边界形式如下：
在这里插入图片描述
其中，训练数据为向量

最佳参数

构造的预测函数为：

函数h(x)的值有特殊含义，它表示结果取1的概率，因此对于输入x分类结果为类别1和类别0的概率分别为：

2) 构造损失函数J（m个样本，每个样本具有n个特征）
Cost函数和J函数如下，它们是基于最大似然估计推导得到的。
在这里插入图片描述
2）损失函数详细推导过程
求代价函数：
概率综合起来写成：

取似然函数为：

对数似然函数为：

参考博客：https://blog.csdn.net/chibangyuxun/article/details/53148005
4、正则化与模型评估指标
1）正则化
正则化使结构风险最小化策略的实现，是在经验风险上加一个正则化项或惩罚项。正则化项一般是模型复杂度的单调递增函数，模型越复杂，正则化项就越大。
正则化可以取不同的形式，在回归问题中取平方损失，就是参数的L2范数，也可以取L1范数。取平方损失时，模型的损失函数变为：
在这里插入图片描述
lambda是正则项系数：
·如果它的值很大，说明对模型的复杂度惩罚大，对拟合数据的损失大，在未知数据上的方差较小，但是可能出现欠拟合的现象；
·如果它的值很小，说明比较注重对训练数据的拟合，在训练数据上的偏差会小，但是可能导致过拟合。
在这里插入图片描述
参考博客：https://blog.csdn.net/chibangyuxun/article/details/53148005
逻辑回归模型评估指标
回归模型评估有三种方法，分别是：平均绝对值误差、均方误差和R平方值，如表1所示：

参考博客：https://blog.csdn.net/qq_37279279/article/details/81041470
5、逻辑回归的优缺点
优点：
1）速度快，适合二分类问题；
2）简单易于理解，直接看到各个特征的权重；
3）能容易地更新模型吸收新的数据。
缺点：
1）容易过拟合，一般准确度不太高；
2）只能处理两分类问题（在此基础上衍生出来的softmax可以用于多分类），且必须线性可分。
参考博客：https://blog.csdn.net/sunpeng19960715/article/details/54745895
6、样本不均衡问题解决办法
参考博客：https://blog.csdn.net/hustchenze/article/details/83008357
7、sklearn参数
参考博客：https://blog.csdn.net/qq_38683692/article/details/82533460