一、LR介绍
逻辑回归 :假设数据(因变量)服从伯努利分布,通过极大化似然函数的方法,运用梯度下降等方式求解参数,来达到将数据分类目的监督学习算法。
二、假设函数
1.算法原型
在给定 x和 θ 的条件下y=1 的概率。
2.LR为什么使用sigmoid函数
三、决策边界
引入多项式特征后,决策边界
四、损失函数
1.介绍
代价函数
损失函数
为什么不用
原因:1)上述函数非凸函数
2)求导包括难计算
2.极大似然推导
3.似然函数的求解-梯度下降
θ更新过程:
三、模型调优
1.L1,L2:用于过拟合调参,L1会趋向于产生少量的特征,而其他的特征都是0,而L2会选择更多的特征,这些特征都会接近于0。
2.其他
正负样本均衡
从loss function的角度看来,谁样本多,谁占的权重其实就大一些。实测样本不均衡确实影响模型效果。
去掉高度相关特征
减少计算量
归一化:
归一化: (x-最小值)/(最大值-最小值)
标准化: (x-平均数)/标准差
作用:加速迭代
离散化
离散化就是把数值型特征离散化到几个固定的区间段。比如说成绩0-100,离散化成A、B、C、D四档,然后用4个01特征来one-hot编码,这里起到的作用就是减少过拟合,95和96分的两个学生未必有差别,但是A的学生跟D的比起来还是有明显差别的。其实就是把线性函数转换成分段阶跃函数了。
特征组合
多项式特征
心得
LR的劣势就是线性模型的线性假设过强,对特征做一些处理是有利于学习”非线性“的特征的,这样大大增强了LR的能力。
四、模型评估
TP/真阳性: 预测正确的正样本,真正类
TN/真阴性: 预测正确的负样本,真负类
FP/伪阳性: 被错误分类的正样本,假正类
FN/伪阴性: 被错误分类的负样本,假负类
1.auc
一个关于AUC的很有趣的性质是,它和Wilcoxon-Mann-Witney Test是等价的
当测试集中的正负样本的分布变化的时候,ROC曲线能够保持不变
讲解参考
http://www.cnblogs.com/guolei/archive/2013/05/23/3095747.html
http://www.cnblogs.com/sparkwen/p/3441197.html
https://blog.csdn.net/xietingcandice/article/details/45289755
2.ks :金融比较关注的指标 一般0.3-0.6多可用,大于0.6有过拟合风险,小于0.3模型区分度太小