Logistic Regression总结

一、LR介绍

逻辑回归 :假设数据(因变量)服从伯努利分布,通过极大化似然函数的方法,运用梯度下降等方式求解参数,来达到将数据分类目的监督学习算法。

二、假设函数

1.算法原型

                                               

在给定 x θ 的条件y=1 的概率。
2.LR为什么使用sigmoid函数

 

 

                                 

三、决策边界

                              引入多项式特征后,决策边界

   

 

四、损失函数

1.介绍

代价函数

损失函数

为什么不用

原因:1)上述函数非凸函数

           2)求导包括难计算

 

2.极大似然推导

3.似然函数的求解-梯度下降

θ更新过程:

三、模型调优

1.L1,L2:用于过拟合调参,L1会趋向于产生少量的特征,而其他的特征都是0,而L2会选择更多的特征,这些特征都会接近于0。

2.其他

正负样本均衡

loss function的角度看来,谁样本多,谁占的权重其实就大一些。实测样本不均衡确实影响模型效果。

 

去掉高度相关特征 

减少计算量

 

归一化

归一化: (x-最小值)/(最大值-最小值)

标准化: (x-平均数)/标准差

作用:加速迭代

 

离散化

离散化就是把数值型特征离散化到几个固定的区间段。比如说成绩0-100,离散化成ABCD四档,然后用401特征来one-hot编码,这里起到的作用就是减少过拟合9596分的两个学生未必有差别,但是A的学生跟D的比起来还是有明显差别的。其实就是把线性函数转换成分段阶跃函数

 

特征组合

多项式特征

 

心得

LR的劣势就是线性模型的线性假设过强,对特征做一些处理是有利于学习”非线性“的特征的,这样大大增强了LR能力。

四、模型评估

TP/真阳性: 预测正确的正样本,真正类

TN/真阴性: 预测正确的负样本,真负类

FP/伪阳性: 被错误分类的正样本,假正类

FN/伪阴性: 被错误分类的负样本,假负类

1.auc

一个关于AUC的很有趣的性质是,它和Wilcoxon-Mann-Witney Test是等价

当测试集中的正负样本的分布变化的时候,ROC曲线能够保持不变

讲解参考

http://www.cnblogs.com/guolei/archive/2013/05/23/3095747.html

http://www.cnblogs.com/sparkwen/p/3441197.html

https://blog.csdn.net/xietingcandice/article/details/45289755

2.ks :金融比较关注的指标  一般0.3-0.6多可用,大于0.6有过拟合风险,小于0.3模型区分度太小

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值