逻辑回归模型(Logistic Regression, LR)基础 - 文赛平

转载 2016年05月31日 15:57:09


逻辑回归模型(Logistic Regression, LR)基础 - 文赛平

逻辑回归(Logistic Regression, LR)模型其实仅在线性回归的基础上,套用了一个逻辑函数,但也就由于这个逻辑函数,使得逻辑回归模型成为了机器学习领域一颗耀眼的明星,更是计算广告学的核心。本文主要详述逻辑回归模型的基础,至于逻辑回归模型的优化、逻辑回归与计算广告学等,请关注后续文章。

1 逻辑回归模型

    回归是一种极易理解的模型,就相当于y=f(x),表明自变量x与因变量y的关系。最常见问题有如医生治病时的望、闻、问、切,之后判定病人是否生病或生了什么病,其中的望闻问切就是获取自变量x,即特征数据,判断是否生病就相当于获取因变量y,即预测分类。

    最简单的回归是线性回归,在此借用Andrew NG的讲义,有如图1.a所示,X为数据点——肿瘤的大小,Y为观测值——是否是恶性肿瘤。通过构建线性回归模型,如h θ (x)所示,构建线性回归模型后,即可以根据肿瘤大小,预测是否为恶性肿瘤h θ (x)≥.05为恶性,h θ (x)<0.5为良性。

clip_image002

    然而线性回归的鲁棒性很差,例如在图1.b的数据集上建立回归,因最右边噪点的存在,使回归模型在训练集上表现都很差。这主要是由于线性回归在整个实数域内敏感度一致,而分类范围,需要在[0,1]。逻辑回归就是一种减小预测范围,将预测值限定为[0,1]间的一种回归模型,其回归方程与回归曲线如图2所示。逻辑曲线在z=0时,十分敏感,在z>>0或z<<0处,都不敏感,将预测值限定为(0,1)。

clip_image004 图2 逻辑方程与逻辑曲线

    逻辑回归其实仅为在线性回归的基础上,套用了一个逻辑函数,但也就由于这个逻辑函数,逻辑回归成为了机器学习领域一颗耀眼的明星,更是计算广告学的核心。对于多元逻辑回归,可用如下公式似合分类,其中公式(4)的变换,将在逻辑回归模型参数估计时,化简公式带来很多益处,y={0,1}为分类结果。
clip_image006

    对于训练数据集,特征数据x={x 1 , x 2 , … , x m }和对应的分类数据y={y 1 , y 2 , … , y m }。构建逻辑回归模型f(θ),最典型的构建方法便是应用极大似然估计。首先,对于单个样本,其后验概率为:

clip_image008     那么,极大似然函数为:

clip_image010     log似然是:

clip_image012

2 梯度下降

    由第1节可知,求逻辑回归模型f(θ),等价于:

clip_image014     采用梯度下降法:

clip_image016     从而迭代θ至收敛即可:

clip_image018

3 模型评估

    对于LR分类模型的评估,常用AUC来评估,关于AUC的更多定义与介绍,可见参考文献2,在此只介绍一种极简单的计算与理解方法。

clip_image020     对于训练集的分类,训练方法1和训练方法2分类正确率都为80%,但明显可以感觉到训练方法1要比训练方法2好。因为训练方法1中,5和6两数据分类错误,但这两个数据位于分类面附近,而训练方法2中,将10和1两个数据分类错误,但这两个数据均离分类面较远。

    AUC正是衡量分类正确度的方法,将训练集中的label看两类{0,1}的分类问题,分类目标是将预测结果尽量将两者分开。将每个0和1看成一个pair关系,团中的训练集共有5*5=25个pair关系,只有将所有pair关系一至时,分类结果才是最好的,而auc为1。在训练方法1中,与10相关的pair关系完全正确,同样9、8、7的pair关系也完全正确,但对于6,其pair关系(6,5)关系错误,而与4、3、2、1的关系正确,故其auc为(25-1)/25=0.96;对于分类方法2,其6、7、8、9的pair关系,均有一个错误,即(6,1)、(7,1)、(8,1)、(9,1),对于数据点10,其正任何数据点的pair关系,都错误,即(10,1)、(10,2)、(10,3)、(10,4)、(10,5),故方法2的auc为(25-4-5)/25=0.64,因而正如直观所见,分类方法1要优于分类方法2。

参考文献:

1  Andrew NG. Logistic Regression Classification

2 http://www.cnblogs.com/guolei/archive/2013/05/23/3095747.html

逻辑回归Logistic Regression 之基础知识准备

0. 前言   这学期 Pattern Recognition 课程的 project 之一是手写数字识别,之二是做一个网站验证码的识别(鸭梨不小哇)。面包要一口一口吃,先尝试把模式识别的经典问题——...
  • GarfieldEr007
  • GarfieldEr007
  • 2016年03月30日 12:36
  • 1924

机器学习算法与Python实践之(七)逻辑回归(Logistic Regression)

机器学习算法与Python实践之(七)逻辑回归(Logistic Regression)zouxy09@qq.comhttp://blog.csdn.net/zouxy09        机器学习算法...
  • zouxy09
  • zouxy09
  • 2014年03月02日 23:49
  • 199519

Logistic回归与梯度下降法

Logistic回归为概率型非线性回归模型,是研究二分类观察结果与一些影响因素之间关系的一种 多变量分析方法。通常的问题是,研究某些因素条件下某个结果是否发生,比如医学中根据病人的一些症状来判断它是 ...
  • ACdreamers
  • ACdreamers
  • 2015年03月26日 22:46
  • 10574

逻辑回归模型(Logistic Regression, LR)基础 - 文赛平

转载自:http://www.tuicool.com/articles/auQFju 逻辑回归(Logistic Regression, LR)模型其实仅在线性回归的基础上,套用了一个逻...
  • u013524655
  • u013524655
  • 2014年11月13日 17:49
  • 653

逻辑回归模型(Logistic Regression, LR)基础<转>

逻辑回归(Logistic Regression, LR)模型其实仅在线性回归的基础上,套用了一个逻辑函数,但也就由于这个逻辑函数,使得逻辑回归模型成为了机器学习领域一颗耀眼的明星,更是计算广告学的核...
  • yongjian_luo
  • yongjian_luo
  • 2014年11月05日 15:07
  • 698

逻辑回归模型(Logistic Regression, LR)

什么是回归: 回归是一种极易理解的模型,就相当于y=f(x),表明自变量x与因变量y的关系。 2....
  • laolu1573
  • laolu1573
  • 2015年09月15日 11:57
  • 641

机器学习算法之: 逻辑回归 logistic regression (LR)

by joey周琦 逻辑回归属于probabilistic discriminative model这一类的分类算法。probabilistic discriminative mode这类算法的思路如...
  • u011467621
  • u011467621
  • 2015年08月29日 23:43
  • 928

sklearn逻辑回归(Logistic Regression,LR)类库使用小结

原文出处:http://www.07net01.com/2016/11/1706402.html,在原文的基础上做了一些修订 sklearn中LogisticRegression的API如下,官方文档...
  • sun_shengyun
  • sun_shengyun
  • 2016年12月22日 11:36
  • 16687

logistic regression(LR)对数几率回归 / 逻辑回归 公式推导

目录(?)[-] 二分类和回归的关系sigmoid函数与LR的关系条件概率最大似然求解附录 sigmoid函数求导似然Reference 因为是傻瓜式教程,所以一...
  • bbbeoy
  • bbbeoy
  • 2017年05月06日 10:57
  • 832

[小白式机器学习(一)] logistic regression(LR)对数几率回归 / 逻辑回归 公式推导

逻辑回归傻瓜式公式推导,小白看着一篇就够了!
  • u014722627
  • u014722627
  • 2017年04月21日 17:21
  • 2680
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:逻辑回归模型(Logistic Regression, LR)基础 - 文赛平
举报原因:
原因补充:

(最多只允许输入30个字)