LR原理

最新推荐文章于 2024-07-24 09:14:07 发布

csearch

最新推荐文章于 2024-07-24 09:14:07 发布

阅读量1k

点赞数

分类专栏：数据挖掘

本文链接：https://blog.csdn.net/csearch/article/details/73302196

版权

本文详细介绍了Logistic回归的理论基础，包括其作为线性回归的扩展，Sigmoid函数的应用，以及最大似然估计。接着讨论了参数求解的梯度下降算法，向量化优化，以及正则化防止过拟合的方法。最后，文章解析了Spark MLlib中Logistic回归的实现，包括LogisticRegressionWithSGD、GeneralizedLinearAlgorithm、GradientDescent和Updater等关键部分。

摘要由CSDN通过智能技术生成

1.基础理论

2.参数求解：梯度下降算法

3.防止过拟合：L1&L2正则化

4.Spark MLlib Logistic Regression源码解析

5.Spark MLlib Logistics Regression实例

--------------------------

1. 基础理论

logistic回归本质上是线性回归，只是在特征到结果的映射中加入了一层函数映射，即先把特征线性求和，然后使用函数g(z)将最为假设函数来预测。g(z)可以将连续值映射到0和1上。预测的值可以理解为概率，在0~1之间，比如可以将>0.5的值归为1，<0.5的归为0。

它与线性回归的不同点在于：为了将线性回归输出的很大范围的数，例如从负无穷到正无穷，压缩到0和1之间，这样的输出值表达为“可能性”才能说服广大民众。当然了，把大值压缩到这个范围还有个很好的好处，就是可以消除特别冒尖的变量的影响。

Logistic函数（或称为Sigmoid函数），函数形式为：

Sigmoid 函数在有个很漂亮的“S”形，如下图所示：

给定n个特征x=(x1,x2,…,xn)，设条件概率P(y=1|x)为观测样本y相对于事件因素x发生的概率，用sigmoid函数表示为：

那么在x条件下y不发生的概率为：

假设现在有m个相互独立的观测事件y=(y1,y2,…,ym)，则一个事件yi发生的概率为(yi= 1)：

当y=1的时候，后面那一项是不是没有了，那就只剩下x属于1类的概率，当y=0的时候，第一项是不是没有了，那就只剩下后面那个x属于0的概率（1减去x属于1的概率）。所以不管y是0还是1，上面得到的数，都是(x, y)出现的概率。那我们的整个样本集，也就是n个独立的样本出现的似然函数为（因为每个样本都是独立的，所以n个样本出现的概率就是他们各自出现的概率相乘）：