Logistic Regression(逻辑回归)原理及公式推导

原创 2016年07月30日 15:18:13

版权声明:本文为原创文章:http://blog.csdn.net/programmer_wei/article/details/52072939

Logistic Regression(逻辑回归)是机器学习中一个非常非常常见的模型,在实际生产环境中也常常被使用,是一种经典的分类模型(不是回归模型)。本文主要介绍了Logistic Regression(逻辑回归)模型的原理以及参数估计、公式推导方法。


模型构建

在介绍Logistic Regression之前我们先简单说一下线性回归,,线性回归的主要思想就是通过历史数据拟合出一条直线,用这条直线对新的数据进行预测,线性回归可以参考我之前的一篇文章。

我们知道,线性回归的公式如下:

z=θ0+θ1x1+θ2x2+θ3x3...+θnxn=θTx

而对于Logistic Regression来说,其思想也是基于线性回归(Logistic Regression属于广义线性回归模型)。其公式如下:

hθ(x)=11+ez=11+eθTx

其中,
y=11+ex
被称作sigmoid函数,我们可以看到,Logistic Regression算法是将线性函数的结果映射到了sigmoid函数中。

sigmoid的函数图形如下:
这里写图片描述

我们可以看到,sigmoid的函数输出是介于(0,1)之间的,中间值是0.5,于是之前的公式 hθ(x) 的含义就很好理解了,因为 hθ(x) 输出是介于(0,1)之间,也就表明了数据属于某一类别的概率,例如 :
hθ(x)<0.5 则说明当前数据属于A类;
hθ(x)>0.5 则说明当前数据属于B类。
所以我们可以将sigmoid函数看成样本数据的概率密度函数。

有了上面的公式,我们接下来需要做的就是怎样去估计参数 θ 了。

首先我们来看, θ 函数的值有特殊的含义,它表示 hθ(x) 结果取1的概率,因此对于输入x分类结果为类别1和类别0的概率分别为:

P(y=1|x;θ)=hθ(x)

P(y=0|x;θ)=1hθ(x)

极大似然估计

根据上式,接下来我们可以使用概率论中极大似然估计的方法去求解损失函数,首先得到概率函数为:

P(y|x;θ)=(hθ(x))y(1hθ(x))1y

因为样本数据(m个)独立,所以它们的联合分布可以表示为各边际分布的乘积,取似然函数为:
L(θ)=i=1mP(y(i)|x(i);θ)

L(θ)=i=1m(hθ(x(i)))y(i)(1hθ(x(i)))1y(i)

取对数似然函数:
l(θ)=log(L(θ))=i=1mlog((hθ(x(i)))y(i))+log((1hθ(x(i)))1y(i))

l(θ)=log(L(θ))=i=1my(i)log(hθ(x(i)))+(1y(i))log(1hθ(x(i)))

最大似然估计就是要求得使 l(θ) 取最大值时的 θ ,这里可以使用梯度上升法求解。我们稍微变换一下:

J(θ)=1ml(θ)

因为乘了一个负的系数1m,然后就可以使用梯度下降算法进行参数求解了。梯度下降具体就不在这里多说了,可以参考之前的文章。

参考文章:
http://blog.chinaunix.net/xmlrpc.php?r=blog/article&uid=9162199&id=4223505
http://blog.csdn.net/wangran51/article/details/8892923

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/programmer_wei/article/details/52072939

机器学习入门——Logistic回归

机器学习中存在很多分类问题,同时线性回归是难以实现的。本文在简单的线性回归基础上,进行拓展,详细讲解Logistic回归,实现二分类,甚至多元分类。...
  • louishao
  • louishao
  • 2017-02-01 22:20:26
  • 5097

logistic回归详解一:为什么要使用logistic函数

从线性分类器谈起  给定一些数据集合,他们分别属于两个不同的类别。例如对于广告数据来说,是典型的二分类问题,一般将被点击的数据称为正样本,没被点击的数据称为负样本。现在我们要找到一个线性分类器,将这些...
  • bitcarmanlee
  • bitcarmanlee
  • 2016-04-14 19:55:27
  • 18639

Logistic回归原理及公式推导

原文见 http://blog.csdn.net/acdreamers/article/details/27365941
  • AriesSurfer
  • AriesSurfer
  • 2014-11-20 11:48:39
  • 107194

logistic回归

模型知识点:logistic详解,logistic与softmax 与 Lasso regression 与 ridge regression , L0、L1、L2范式 。...
  • u010138758
  • u010138758
  • 2017-03-20 20:32:55
  • 581

《机器学习实战》Logistic回归算法(1)

============================================================================================ 《机器学习实战...
  • Gamer_gyt
  • Gamer_gyt
  • 2016-04-25 00:13:44
  • 15775

Logistic回归

前提:本章内容需要在你掌握了梯度下降算法的思想后才能很容易的弄懂,若梯度下降还不明白的话可以看我的总结的“感知机123”,这是感知机1的连接感知机。 关于Logistic回归和Softmax回归 ...
  • xueyingxue001
  • xueyingxue001
  • 2016-07-12 09:21:00
  • 1382

Logistic回归详解及案例

刚开始学习回归的时候一头雾水——线性回归linear regression,逻辑回归logistic regression和Softmax regression?线性回归是回归算法,而逻辑回归和sof...
  • congqi4525
  • congqi4525
  • 2017-05-11 09:47:30
  • 1077

逻辑回归

什么是逻辑回归? Logistic回归与多重线性回归实际上有很多相同之处,最大的区别就在于它们的因变量不同,其他的基本都差不多。正是因为如此,这两种回归可以归于同一个家族,即广义线性模型(gener...
  • pakko
  • pakko
  • 2014-07-16 15:42:14
  • 223416

Numpy加速的关键 -- 使用优化的方法

# -*- coding: utf-8 -*- """ Created on Sun Oct 23 20:05:57 2016@author: zang """import timeitnormal_...
  • SA14023053
  • SA14023053
  • 2016-10-23 20:18:00
  • 1308

最流行的4个机器学习数据集

最流行的4个机器学习数据集机器学习算法需要作用于数据,而数据的本质则决定了应用的机器学习算法是否合适,而数据的质量也会决定算法表现的好坏程度。所以会研究数据,会分析数据很重要。本文作为学习研究数据系列...
  • jiahaowanhao
  • jiahaowanhao
  • 2018-03-31 22:07:29
  • 52
收藏助手
不良信息举报
您举报文章:Logistic Regression(逻辑回归)原理及公式推导
举报原因:
原因补充:

(最多只允许输入30个字)