【NLP学习-2】逻辑回归

最新推荐文章于 2024-02-19 01:13:35 发布

rrrimp

最新推荐文章于 2024-02-19 01:13:35 发布

阅读量341

点赞数

分类专栏： NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/rrrimp/article/details/114555635

版权

NLP 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

【NLP学习-2】逻辑回归

1 什么是逻辑回归
2 Sigmoid函数
3 损失函数
4 优点
5 应用
6 逻辑回归常用的优化方法
- - 一阶方法
  - 二阶方法：牛顿法、拟牛顿法
6 逻辑斯特回归为什么要对特征进行离散化

学习笔记：来源https://github.com/NLP-LOVE/ML-NLP/blob/master/Machine%20Learning/2.Logistics%20Regression/2.Logistics%20Regression.md

1 什么是逻辑回归

用于二分类问题。大家都熟悉线性回归，一般形式是Y=aX+b，y的取值范围是[-∞, +∞]，有这么多取值，怎么进行分类呢？

把Y的结果带入一个非线性变换的Sigmoid函数中，即可得到[0,1]之间取值范围的数S，S可以把它看成是一个概率值，如果我们设置概率阈值为0.5，那么S大于0.5可以看成是正样本，小于0.5看成是负样本，就可以进行分类了。

2 Sigmoid函数

在这里插入图片描述
sigmoid函数求导后：

原来的二元回归变成：
在这里插入图片描述

3 损失函数

对数似然函数
在这里插入图片描述
整合后：

4 优点

LR能以概率的形式输出结果，而非只是0,1判定。因为结果是概率，可以做ranking model
R的可解释性强，可控度高

5 应用

CTR（Click-Through-Rate）预估/推荐系统的learning to rank/各种分类场景。
某搜索引擎厂的广告CTR预估基线版是LR。
某电商搜索排序/广告CTR预估基线版是LR。
某电商的购物搭配推荐用了大量LR。
某现在一天广告赚1000w+的新闻app排序基线是LR。

6 逻辑回归常用的优化方法

一阶方法

梯度下降、随机梯度下降、mini 随机梯度下降法。随机梯度下降不但速度上比原始梯度下降要快，局部最优化问题时可以一定程度上抑制局部最优解的发生。

二阶方法：牛顿法、拟牛顿法

凸优化问题：牛顿法其实就是通过切线与x轴的交点不断更新切线的位置，直到达到曲线与x轴的交点得到方程解。

实际应用中牛顿法首先选择一个点作为起始点，并进行一次二阶泰勒展开得到导数为0的点进行一个更新，直到达到要求，这时牛顿法也就成了二阶求解问题，比一阶方法更快。

缺点：牛顿法是定长迭代，没有步长因子，所以不能保证函数值稳定的下降，严重时甚至会失败。还有就是牛顿法要求函数一定是二阶可导的。而且计算Hessian矩阵的逆复杂度很大。

拟牛顿法：不用二阶偏导而是构造出Hessian矩阵的近似正定对称矩阵的方法称为拟牛顿法。拟牛顿法的思路就是用一个特别的表达形式来模拟Hessian矩阵或者是他的逆使得表达式满足拟牛顿条件。主要有DFP法（逼近Hession的逆）、BFGS（直接逼近Hession矩阵）、 L-BFGS（可以减少BFGS所需的存储空间）。

6 逻辑斯特回归为什么要对特征进行离散化

非线性逻辑回归属于广义线性模型，表达能力受限；单变量离散化为N个后，每个变量有单独的权重，相当于为模型引入了非线性，能够提升模型表达能力，加大拟合
速度快。稀疏向量内积乘法运算速度快，计算结果方便存储，容易扩展；
鲁棒性。离散化后的特征对异常数据有很强的鲁棒性：比如一个特征是年龄>30是1，否则0。如果特征没有离散化，一个异常数据“年龄300岁”会给模型造成很大的干扰；
方便交叉与特征组合：离散化后可以进行特征交叉，由M+N个变量变为M*N个变量，进一步引入非线性，提升表达能力；
稳定性：特征离散化后，模型会更稳定，比如如果对用户年龄离散化，20-30作为一个区间，不会因为一个用户年龄长了一岁就变成一个完全不同的人。当然处于区间相邻处的样本会刚好相反，所以怎么划分区间是门学问；
简化模型：特征离散化以后，起到了简化了逻辑回归模型的作用，降低了模型过拟合的风险。

记：非线性、鲁棒性、速度快

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

目录

分类专栏

JAVA 2篇
bug
杂 1篇
知识图谱 3篇
DL 1篇
NLP 2篇

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。