datawhale逻辑回归

最新推荐文章于 2021-07-22 18:39:38 发布

愛僡

最新推荐文章于 2021-07-22 18:39:38 发布

阅读量113

点赞数

1、逻辑回归与线性回归的联系与区别
逻辑回归与线性回归都属于广义线性回归模型。逻辑回归是一种线性分类器。
逻辑回归：y=sigmoid(w’x)
线性回归：y=w’x，
也就是逻辑回归比线性回归多了一个sigmoid函数，sigmoid(x)=1/(1+exp(-x))，其实就是对x进行归一化操作，使得sigmoid(x)位于0~1。
（1）逻辑回归通常用于二分类模型，目标函数是二类交叉熵，y的值表示属于第1类的概率，用户可以自己设置一个分类阈值。
线性回归用来拟合数据，目标函数是平法和误差。
（2）线性回归中，独立变量的系数解释十分明了，就是保持其他变量不变时，改变单个变量因变量的改变量。
逻辑回归中，自变量系数的解释就要视情况而定了，要看选用的概率分布是什么，如二项式分布，泊松分布等。
2、逻辑回归的原理
逻辑回归跟线性回归的原理是类似的。
（1）找一个合适的预测函数h，即分类函数，用来预测输入数据的判断结果。
（2）构造一个损失函数，该函数表示预测的输出（h）与训练数据类别（y）之间的偏差，可以是二者之间的差（h-y）或者是其他的形式。综合考虑所有训练数据的“损失”，将损失函数求和或者求平均，记为J(θ)函数，表示所有训练数据预测值与实际类别的偏差。
（3）显然，J(θ)函数的值越小表示预测函数越准确（即h函数越准确），所以这一步需要做的是找到J(θ)函数的最小值。找函数的最小值有不同的方法，逻辑回归实现时有的是梯度下降法。
3、逻辑回归损失函数推导及优化
参考https://zhuanlan.zhihu.com/p/44591359
4、逻辑回归的评估标准
模型评价基本原理，首先将预测的结果和真实的结果进行比对，进而判断这个逻辑回归模型是否契合数据，如果模型较好，那么预测（或拟合）的结果自然会和真实结果重合程度高。
第一个是真正率——TPR，即d/(b+d)
第二个指标则是假正率——FPR，c/(a+c)
当TPR高而FPR低时，证明这个模型是比较好的。
5、逻辑回归的优缺点
优点：预测结果是界于0和1之间的概率；可以适用于连续性和类别性自变量；
容易使用和解释。
缺点：对模型中自变量多重共线性较为敏感；准确性不是很高，很难拟合数据的真实分布；很难处理数据不均衡的问题；处理非线性数据比较麻烦。
6、样本不均衡问题解决办法
（1）样本的过采样和欠采样。（2）使用多个分类器进行分类。（3）将二分类问题转换成其他问题。（4）改变正负类别样本在模型中的权重
7、sklearn参数
参考
‘’http://www.cnblogs.com/MrFiona/articles/7920587.html