详解并行逻辑回归

本文深入探讨了逻辑回归(LR)的基础原理及其在并行计算中的实现。通过并行化处理,解决了大规模样本训练时的效率问题。文章介绍了LR的目标函数、优化算法,如梯度下降法、牛顿法、拟牛顿法中的BFGS和L-BFGS,并详细阐述了如何按行和列对数据进行分割,以及如何并行计算梯度,最后通过实验对比了并行LR与Liblinear的训练效率。
摘要由CSDN通过智能技术生成

编者按:回归其实就是对已知公式的未知参数进行估计,Logistic regression是线性回归的一种,是机器学习中十分常用的一种分类算法,在互联网领域得到了广泛的应用。本文来自腾讯冯扬的博客:并行逻辑回归 ,主要从并行化的角度讨论LR的实现。


CSDN推荐:欢迎免费订阅《Hadoop与大数据周刊》获取更多Hadoop技术文献、大数据技术分析、企业实战经验,生态圈发展趋势。


以下为原文:

逻辑回归(Logistic Regression,简称LR)是机器学习中十分常用的一种分类算法,在互联网领域得到了广泛的应用,无论是在广告系统中进行CTR预估,推荐系统中的预估转换率,反垃圾系统中的识别垃圾内容……都可以看到它的身影。LR以其简单的原理和应用的普适性受到了广大应用者的青睐。实际情况中,由于受到单机处理能力和效率的限制,在利用大规模样本数据进行训练的时候往往需要将求解LR问题的过程进行并行化,本文从并行化的角度讨论LR的实现。

1. LR的基本原理和求解方法

LR模型中,通过特征权重向量对特征向量的不同维度上的取值进行加权,并用逻辑函数将其压缩到0~1的范围,作为该样本为正样本的概率。逻辑函数为,曲线如图1。


图1 逻辑函数曲线

给定M个训练样本,其中Xj={xji|i=1,2,…N} 为N维的实数向量(特征向量,本文中所有向量不作说明都为列向量);yj取值为+1或-1,为分类标签,+1表示样本为正样本,-1表示样本为负样本。在LR模型中,第j个样本为正样本的概率是:

其中W是N维的特征权重向量,也就是LR问题中要求解的模型参数。

求解LR问题,就是寻找一个合适的特征权重向量W,使得对于训练集里面的正样本,值尽量大;对于训练集里面的负样本,

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值