编者按:回归其实就是对已知公式的未知参数进行估计,Logistic regression是线性回归的一种,是机器学习中十分常用的一种分类算法,在互联网领域得到了广泛的应用。本文来自腾讯冯扬的博客:并行逻辑回归 ,主要从并行化的角度讨论LR的实现。
CSDN推荐:欢迎免费订阅《Hadoop与大数据周刊》获取更多Hadoop技术文献、大数据技术分析、企业实战经验,生态圈发展趋势。
以下为原文:
逻辑回归(Logistic Regression,简称LR)是机器学习中十分常用的一种分类算法,在互联网领域得到了广泛的应用,无论是在广告系统中进行CTR预估,推荐系统中的预估转换率,反垃圾系统中的识别垃圾内容……都可以看到它的身影。LR以其简单的原理和应用的普适性受到了广大应用者的青睐。实际情况中,由于受到单机处理能力和效率的限制,在利用大规模样本数据进行训练的时候往往需要将求解LR问题的过程进行并行化,本文从并行化的角度讨论LR的实现。
1. LR的基本原理和求解方法
LR模型中,通过特征权重向量对特征向量的不同维度上的取值进行加权,并用逻辑函数将其压缩到0~1的范围,作为该样本为正样本的概率。逻辑函数为
,曲线如图1。
给定M个训练样本
,其中Xj={xji|i=1,2,…N} 为N维的实数向量(特征向量,本文中所有向量不作说明都为列向量);yj取值为+1或-1,为分类标签,+1表示样本为正样本,-1表示样本为负样本。在LR模型中,第j个样本为正样本的概率是:
其中W是N维的特征权重向量,也就是LR问题中要求解的模型参数。
求解LR问题,就是寻找一个合适的特征权重向量W,使得对于训练集里面的正样本,
值尽量大;对于训练集里面的负样本,这个值尽量小(或

本文深入探讨了逻辑回归(LR)的基础原理及其在并行计算中的实现。通过并行化处理,解决了大规模样本训练时的效率问题。文章介绍了LR的目标函数、优化算法,如梯度下降法、牛顿法、拟牛顿法中的BFGS和L-BFGS,并详细阐述了如何按行和列对数据进行分割,以及如何并行计算梯度,最后通过实验对比了并行LR与Liblinear的训练效率。


最低0.47元/天 解锁文章
2788

被折叠的 条评论
为什么被折叠?



