Logistic Regression总结

最新推荐文章于 2022-07-19 16:26:45 发布

haozhepeng

最新推荐文章于 2022-07-19 16:26:45 发布

阅读量205

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/haozhepeng/article/details/86539648

版权

机器学习专栏收录该内容

13 篇文章 0 订阅

订阅专栏

一、LR介绍

逻辑回归：假设数据(因变量)服从伯努利分布,通过极大化似然函数的方法，运用梯度下降等方式求解参数，来达到将数据分类目的监督学习算法。

二、假设函数

1.算法原型

在给定 x和 θ 的条件下y=1 的概率。
2.LR为什么使用sigmoid函数

三、决策边界

引入多项式特征后，决策边界

四、损失函数

1.介绍

代价函数

损失函数

为什么不用

原因：1）上述函数非凸函数

2）求导包括难计算

2.极大似然推导

3.似然函数的求解-梯度下降

θ更新过程：

三、模型调优

1.L1,L2:用于过拟合调参，L1会趋向于产生少量的特征，而其他的特征都是0，而L2会选择更多的特征，这些特征都会接近于0。

2.其他

正负样本均衡

从loss function的角度看来，谁样本多，谁占的权重其实就大一些。实测样本不均衡确实影响模型效果。

去掉高度相关特征

减少计算量

归一化：

归一化： (x-最小值)/(最大值-最小值)

标准化： (x-平均数)/标准差

作用：加速迭代

离散化

离散化就是把数值型特征离散化到几个固定的区间段。比如说成绩0-100，离散化成A、B、C、D四档，然后用4个01特征来one-hot编码，这里起到的作用就是减少过拟合，95和96分的两个学生未必有差别，但是A的学生跟D的比起来还是有明显差别的。其实就是把线性函数转换成分段阶跃函数了。

特征组合

多项式特征

心得

LR的劣势就是线性模型的线性假设过强，对特征做一些处理是有利于学习”非线性“的特征的，这样大大增强了LR的能力。

四、模型评估

TP/真阳性: 预测正确的正样本，真正类

TN/真阴性: 预测正确的负样本，真负类

FP/伪阳性: 被错误分类的正样本，假正类

FN/伪阴性: 被错误分类的负样本，假负类

1.auc

一个关于AUC的很有趣的性质是，它和Wilcoxon-Mann-Witney Test是等价的

当测试集中的正负样本的分布变化的时候，ROC曲线能够保持不变

讲解参考

http://www.cnblogs.com/guolei/archive/2013/05/23/3095747.html

http://www.cnblogs.com/sparkwen/p/3441197.html

https://blog.csdn.net/xietingcandice/article/details/45289755

2.ks :金融比较关注的指标一般0.3-0.6多可用，大于0.6有过拟合风险，小于0.3模型区分度太小

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Logistic Regression总结

一、LR介绍逻辑回归：假设数据(因变量)服从伯努利分布,通过极大化似然函数的方法，运用梯度下降等方式求解参数，来达到将数据分类目的监督学习算法。二、假设函数1.算法原型在给定 x和 θ 的条件下y=1 的概率。2.LR为什么使用sigmoid函数 ...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。