datawhale逻辑回归

1、逻辑回归与线性回归的联系与区别
逻辑回归与线性回归都属于广义线性回归模型。逻辑回归是一种线性分类器。
逻辑回归:y=sigmoid(w’x)
线性回归:y=w’x,
也就是逻辑回归比线性回归多了一个sigmoid函数,sigmoid(x)=1/(1+exp(-x)),其实就是对x进行归一化操作,使得sigmoid(x)位于0~1。
(1)逻辑回归通常用于二分类模型,目标函数是二类交叉熵,y的值表示属于第1类的概率,用户可以自己设置一个分类阈值。
线性回归用来拟合数据,目标函数是平法和误差。
(2)线性回归中,独立变量的系数解释十分明了,就是保持其他变量不变时,改变单个变量因变量的改变量。
逻辑回归中,自变量系数的解释就要视情况而定了,要看选用的概率分布是什么,如二项式分布,泊松分布等。
2、 逻辑回归的原理
逻辑回归跟线性回归的原理是类似的。
(1)找一个合适的预测函数h,即分类函数,用来预测输入数据的判断结果。
(2)构造一个损失函数,该函数表示预测的输出(h)与训练数据类别(y)之间的偏差,可以是二者之间的差(h-y)或者是其他的形式。综合考虑所有训练数据的“损失”,将损失函数求和或者求平均,记为J(θ)函数,表示所有训练数据预测值与实际类别的偏差。
(3)显然,J(θ)函数的值越小表示预测函数越准确(即h函数越准确),所以这一步需要做的是找到J(θ)函数的最小值。找函数的最小值有不同的方法,逻辑回归实现时有的是梯度下降法。
3、逻辑回归损失函数推导及优化
参考https://zhuanlan.zhihu.com/p/44591359
4、逻辑回归的评估标准
模型评价基本原理,首先将预测的结果和真实的结果进行比对,进而判断这个逻辑回归模型是否契合数据,如果模型较好,那么预测(或拟合)的结果自然会和真实结果重合程度高。
第一个是真正率——TPR,即d/(b+d)
第二个指标则是假正率——FPR,c/(a+c)
当TPR高而FPR低时,证明这个模型是比较好的。
5、逻辑回归的优缺点
优点:预测结果是界于0和1之间的概率;可以适用于连续性和类别性自变量;
容易使用和解释。
缺点:对模型中自变量多重共线性较为敏感;准确性不是很高,很难拟合数据的真实分布;很难处理数据不均衡的问题;处理非线性数据比较麻烦。
6、样本不均衡问题解决办法
(1)样本的过采样和欠采样。(2)使用多个分类器进行分类。(3)将二分类问题转换成其他问题。(4)改变正负类别样本在模型中的权重
7、sklearn参数
参考
‘’http://www.cnblogs.com/MrFiona/articles/7920587.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值