算法详解系列(二)：逻辑回归

最新推荐文章于 2023-05-16 22:42:08 发布

预知梦_

最新推荐文章于 2023-05-16 22:42:08 发布

阅读量571

点赞数

分类专栏：算法详解文章标签：逻辑回归机器学习算法深度学习分布式

本文链接：https://blog.csdn.net/im_chenxi/article/details/102473683

版权

算法详解专栏收录该内容

3 篇文章 1 订阅

订阅专栏

逻辑回归假设数据服从伯努利分布，通过极大化似然函数方法，运用梯度下降来求解参数，来达到将数据二分目的。

一、算法的推导

1.1 对数几率函数

对数几率函数：是一种Sigmoid函数，通过此函数来输出类别概率。

对数几率函数为： $\frac { 1 } { 1 + e ^ { - (w^T x+b ) }}$ ，其中 $y$ 代表的是样本视为正样本的可能性，则 $1 - y$ 为视为负样本的可能性。

对数几率：定义为 $\ln \frac { y } { 1 - y } = w ^ { T } x + b$ ，其中$\frac { y } { 1 - y } $称为比率。

决策边界：作用在 $n$ 维空间，将不同样本分开的平面或曲面，在逻辑回归中，决策边界对应 $w ^ { T } x + b=0$ 。

分布函数
密度函数

1.2 使用极大似然法进行参数估计

由对数几率函数对应输出正样本的概率，可得对应关系：$P ( y = 1 | x ) = \frac { e ^ { w ^ { T } x } + b } { 1 + e ^ { w ^ { T } x + b } } $，并令$ P ( y = 1 | x ) =\pi ( x ) $，则对应的$ P ( y = 0 | x ) = \frac {1} { 1 + e ^ { w ^ { T } x + b } } $，则$ P ( y = 0 | x ) =1-\pi ( x )$。

现学习目标是对**参数 $w$ 和 $b$ **进行参数估计，使得逻辑回归模型能尽可能符合数据集分布。

对于给定的数据集 $\left \{ x^{(i)},y^{(i)} \right \}$ 其中 $i$ 从1到数据集大小m，来使得最大化对数似然。

首选，写出似然函数： $l=\prod_{i=1}^{m}\left[ \pi \left( x ^ { (i) } \right) \right] ^ { y ^ { (i) } }\left[1- \pi \left( x ^ { (i) } \right) \right] ^ {1- y ^ { (i) } }$ ，对数似然函数就是 $L(w)=\prod_{i=1}^{m}[ y^{(i)} \log \pi ( x^{(i)} ) +(1- y^{(i)}) \log (1- \pi ( x^{(i)}) ) ]$ ，可化简为 $\sum _ { i = 1 } ^ { m } \left[ y ^ { (i) } \log \frac { \pi \left( x ^ { (i) } \right) } { 1 - \pi \left( x ^ { (i) } \right) } + \log \left( 1 - \pi \left( x ^ { (i) } \right) \right) \right]=\sum _ { i = 1 } ^ { m } \left[ y^ { (i) } \left( w \cdot x ^ { (i) } \right) - \log \left( 1 + \exp \left( w \cdot x ^ { (i) } \right) \right]\right.$ ，后面式子是带入 $\pi ( x )$ 后化简得到。

现在，即对对数似然函数求极大值，即以对数似然函数为目标的最优化问题。 $L (w)$ 是关于 $w$ 的高阶连续可导凸函数，根据凸优化理论，可采用梯度下降法，牛顿法等优化方法求解。

1.3 逻辑回归的损失函数

逻辑回归的损失函数是交叉熵损失函数，交叉熵主要用于度量分布的差异性

令 $\theta } ( x ) = \frac { 1 } { 1 + e ^ { - \theta ^ { T } x } }$ ，即用 $\theta$ 代替了 $b, w_0, w_1, ... , w_n]$ 。

交叉熵损失函数： $\theta ) = - \frac { 1 } { m } \sum _ { i = 1 } ^ { m } [y ^ { (i) }log h _ { \theta } ( x ) +(1-y^{(i)})log(1- h _ { \theta } ( x )) ]$ 。

使用交叉熵损失函数的原因： $\theta )$ 中除去$ - \frac { 1 } { m } $便是上述的对数似然函数，对$ J ( \theta )$求最小，即对对数似然函数求极大。

1.4 逻辑回归的梯度下降

$\frac { \partial J ( \theta ) } { \partial \theta_ j }=\sum _ { i = 1 } ^ { m } \frac { 1 } { m }(\frac { e^{\theta^T x^{(i)} }} { 1 + e ^ { - \theta ^ { T } x } }x^{(i)}_{j}-y^{(i)}x^{(i)}_{j})=\sum _ { i = 1 } ^ { m }\frac { 1 } { m }(h_ \theta ( x ^ { ( i ) } ) - y ^ { ( i ) }) x _ { j } ^ { ( i ) },(j=0,1,2,...,n)$ ，

所以，参数迭代更新式为： $\theta _ { j } : =\theta _ { j } - \alpha \frac { 1 } { m }\sum _ { i = 1 } ^ { m } (h _ { \theta } \left( x ^ { ( i ) } \right) - y^ {( i )})x _ { j } ^ { ( i ) } , \left( j = 0 , 1,2..., n \right)$ 。

1.5 多分类逻辑回归

普通逻辑回归是一个二分类模型，可推广至多分类

假设：离散型随机变量 $Y$ 的取值集合是 $\{ 1,2 , \dots ,K\}$ ，共有 $K$ 类，则多分类逻辑回归模型的输出概率为：

$=\frac { e ^ { w _ { k } \cdot x } } {1+ \sum _ { k = 1 } ^ { k-1 }e ^ { w _ { k } \cdot x } },k=1,2,...,K-1$ ， $=\frac {1 } {1+ \sum _ { k = 1 } ^ { k-1 }e ^ { w _ { k } \cdot x } },x \in R ^ { n + 1 } , w _ { k } \in R ^ { n + 1 }$ 。

其中注意 $Y = k$ 是一个取 $1$ 到 $K - 1$ 类其中一类， $Y = K$ 是指第 $K$ 类， $P (Y = K ∣ x)$ 便是由1减去其他k取值的概率就是第K类的概率。

多分类LR由来：softmax函数， $softmax(x)=\frac { e ^ { k } } { \sum _ { k = 1 } ^ { C }e^k }$ 。

二阶逻辑回归的参数估计法也可推广到多项逻辑回归。

1.6 分布式逻辑回归

算法的伪代码：

设置参数，例如最大迭代次数,学习率，初始权重等
Repeat Until MaxIter Times {
	训练数据分发给计算节点(可对数据一次分发多次使用)
	计算节点参数更新
	计算节点将更新后参数发给管理节点
	管理节点收集参数作参数累和后更新参数
}

二、逻辑回归的欠、过拟合

解决LR回归欠拟合：

增加特征的维度

解决LR的过拟合：

减少特征的数量，可人工特征选择，也可降维等模型算法选择
正则化(加入 $L_1,L_2$ 罚项)
逐渐减小梯度下降学习率 $\alpha$

三、逻辑回归的优缺点

LR优点：

直接对分类的可能性建模，无需事先假设数据分布，避免了假设分布不准确带来的问题
不仅预测出类别，还可得到近似概率预测
对率函数是任意阶可导凸函数，有很好得数学性质，很多数值优化算法可直接用于求取最优解
容易使用和解释，计算代价低
LR对时间和内存需求上相当高效
可应用于分布式数据，并且还有在线算法实现，用较小资源处理较大数据
对数据中小噪声鲁棒性很好，并且不会受到轻微多重共线性影响
因为结果是概率，可用作排序模型

LR缺点：

容易欠拟合，分类精度不高
数据特征有缺失或特征空间很大时效果不好

四、逻辑回归面对线性不可分数据

逻辑回归本质上是一个线性模型，可通过:

利用特殊核函数,对特征进行变换把低维空间转换到高维空间，使用组合特征映射(如多项式特征)。但组合特征泛化能力较弱
扩展LR算法，提出FM算法

五、逻辑回归通常稀疏的原因

分类特征通常采用one-hot转换成数值特征，产生大量稀疏
一般很少直接将连续值作为逻辑回归模型输入，而是将连续特征离散化

LR一般需要连续特征离散化原因：

离散特征的增加和减少都很容易，易于模型快速迭代
稀疏向量内积乘法速廈快，计算结果方便存储，容易扩展
离散化的特征对异常数据有很强的鲁棒性(比如年龄为300异常值可归为年龄>30这一段)
逻辑回归属于广义线性模型，表达能力受限。单变量离散化为N个后，每个变量有单独的权重，相当于对模型引入了非线性，能够提升模型表达能力，加大拟合
离散化进行特征交叉，由 $M + N$ 个变量为 $M * N$ 个变量(将单个特征分成 $M$ 个取值)，进一步引入非线性，提升表达能力
特征离散化后，模型会更稳定(比如对用户年龄离散化，20-30作为一个区间，不会因为用户年龄，增加一岁变成完全不同的人，但区间相邻处样本会相反，所以怎样划分区间很重要)
特征离散化后，简化了LR模型作用，降低模型过拟合风险

六、逻辑回归和线性回归的异同

相同之处：

都使用了极大似然估计来对样本建模。线性回归使用最小二乘法，实际上就是在自变量 $x$ 和超参数 $\theta$ 确定，因变量 $y$ 服从正态分布的假设下，使用最大似然估计的一个化简。逻辑回归通过对似然函数的学习，得到最佳参数$\theta $
二者在求解参数的过程中，都可以使用梯度下降的方法

不同之处：

逻辑回归处理的是分类问题，线性回归处理的是回归问题
逻辑回归中因变量取值是一个二元分布，模型学习得出的是 $E[y|x;\theta]$ ，即给定自变量和参数后，得到因变量的期望。而线性回归实际上求解的是 $y=\theta^Tx$ ，是对假设的真实关系 $y=\theta^T x+\varepsilon$ 的一个近似，其中 $\varepsilon$ 是误差项
逻辑回归中因变量是离散的，线性回归中的因变量是连续的。并在自变量与参数 $\theta$ 确定情况下，逻辑回归可以看作广义线性模型在因变量 $y$ 服从二元分布时一个特殊情况，而使用最小二乘法求解线性回归时，我们认为因变量 $y$ 服从正态分布

七、逻辑回归的应用场景

CTR预估，Recommender System的Learning to Rank
病理诊断，可用于寻找某一疾病的危险因素
信用评估领域
垃圾邮件分类

预知梦_

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
算法详解系列(二)：逻辑回归

逻辑回归假设数据服从伯努利分布，通过极大化似然函数方法，运用梯度下降来求解参数，来达到将数据二分目的。一、算法的推导1.1 对数几率函数对数几率函数：是一种Sigmoid函数，通过此函数来输出类别概率。对数几率函数为：y=11+e−(wTx+b)y = \frac { 1 } { 1 + e ^ { - (w^T x+b ) }}y=1+e−(wTx+b)1，其中yyy代表的是样本视...
复制链接

扫一扫