详解并行逻辑回归

最新推荐文章于 2024-06-06 22:45:33 发布

原创

最新推荐文章于 2024-06-06 22:45:33 发布 · 1.3w 阅读

16 ·

CC 4.0 BY-SA版权

本文深入探讨了逻辑回归（LR）的基础原理及其在并行计算中的实现。通过并行化处理，解决了大规模样本训练时的效率问题。文章介绍了LR的目标函数、优化算法，如梯度下降法、牛顿法、拟牛顿法中的BFGS和L-BFGS，并详细阐述了如何按行和列对数据进行分割，以及如何并行计算梯度，最后通过实验对比了并行LR与Liblinear的训练效率。

编者按：回归其实就是对已知公式的未知参数进行估计，Logistic regression是线性回归的一种，是机器学习中十分常用的一种分类算法，在互联网领域得到了广泛的应用。本文来自腾讯冯扬的博客：并行逻辑回归，主要从并行化的角度讨论LR的实现。

CSDN推荐：欢迎免费订阅《Hadoop与大数据周刊》获取更多Hadoop技术文献、大数据技术分析、企业实战经验，生态圈发展趋势。

以下为原文：

逻辑回归（Logistic Regression，简称LR）是机器学习中十分常用的一种分类算法，在互联网领域得到了广泛的应用，无论是在广告系统中进行CTR预估，推荐系统中的预估转换率，反垃圾系统中的识别垃圾内容……都可以看到它的身影。LR以其简单的原理和应用的普适性受到了广大应用者的青睐。实际情况中，由于受到单机处理能力和效率的限制，在利用大规模样本数据进行训练的时候往往需要将求解LR问题的过程进行并行化，本文从并行化的角度讨论LR的实现。

1. LR的基本原理和求解方法

LR模型中，通过特征权重向量对特征向量的不同维度上的取值进行加权，并用逻辑函数将其压缩到0~1的范围，作为该样本为正样本的概率。逻辑函数为，曲线如图1。