1、逻辑回归与线性回归的联系与区别
联系:
线性回归决策函数
将其通过sigmoid函数,获得逻辑回归的决策函数
区别:
线性回归用来预测,逻辑回归用来分类。
线性回归是拟合函数,逻辑回归是预测函数
线性回归的参数计算方法是最小二乘法,逻辑回归的参数计算方法是梯度下降
参考博客:https://blog.csdn.net/lx_ros/article/details/81263209
2、 逻辑回归的原理
如果线性回归的结果输出是一个连续值,而值得范围是无法限定的,那我们没有办法把这个结果值映射为可以帮助我们判断的结果,如果输出结果是(0,1)的一个概率值,就可以很容易判断结果。逻辑回归正是利用了这样一个函数——sigmoid函数:
在这里插入图片描述
其图像如下:
3、逻辑回归损失函数推导及优化
参考博客:https://blog.csdn.net/chibangyuxun/article/details/53148005
4、 正则化与模型评估指标
正则化:正则化就是在损失函数后加上一个正则化项(惩罚项),其实就是常说的结构风险最小化策略,即经验风险(损失函数)加上正则化。一般模型越复杂,正则化值越大。
L1正则化(L1范数)指的是权重参数W的各项元素绝对值之和
L2(L2范数)权重参数W的各项元素的平方和的开方
线性回归模型,使用L1正则化的模型建叫做Lasso回归,使用L2正则化的模型叫做Ridge回归(岭回归)
L1正则化可以产生稀疏权重矩阵,即大部分w为0,只有少数w非0,可以用于特征选择
5、逻辑回归的优缺点
优点:1)适合需要得到一个分类概率的场景。2)计算代价不高,容易理解实现。在时间和内存需求上相当高效。它可以应用于分布式数据,并且还有在线算法实现,用较少的资源处理大型数据。3)对于数据中小噪声的鲁棒性很好,并且不会受到轻微的多重共线性的特别影响。
缺点:1)容易欠拟合,分类精度不高。2)数据特征有缺失或者特征空间很大时表现效果并不好。
6、样本不均衡问题解决办法
样本的过采样和欠采样。
使用多个分类器进行分类。
将二分类问题转换成其他问题。
改变正负类别样本在模型中的权重
参考博客:https://blog.csdn.net/hustchenze/article/details/83008357
7、sklearn参数
见上篇