逻辑回归

http://www.cnblogs.com/biyeymyhjob/archive/2012/07/18/2595410.html 逻辑回归

http://www.tuicool.com/articles/VRb6n2 逻辑回归


初步接触

谓LR分类器(Logistic Regression Classifier),并没有什么神秘的。在分类的情形下,经过学习之后的LR分类器其实就是一组权值w0,w1,...,wm
当测试样本集中的测试数据来到时,这一组权值按照与测试数据线性加和的方式,求出一个z值:

z = w0+w1*x1+w2*x2+...+wm*xm。  (其中x1,x2,...,xm是某样本数据的各个特征,维度为m)

之后按照sigmoid函数的形式求出:

σ(z) = 1 / (1+exp(z)) 。

由于sigmoid函数的定义域是(-INF, +INF),而值域为(0, 1)。因此最基本的LR分类器适合于对两类目标进行分类。

那么LR分类器的这一组权值w0,w1,...,wm是如何求得的呢?这就需要涉及到极大似然估计MLE和优化算法的概念了。

我们将sigmoid函数看成样本数据的概率密度函数,每一个样本点,都可以通过上述的公式①和计算出其概率密度

 

详细描述

1.逻辑回归模型

 

1.1逻辑回归模型

考虑具有p个独立变量的向量clip_image002,设条件概率clip_image004为根据观测量相对于某事件发生的概率。逻辑回归模型可表示为

clip_image006         (1.1)

上式右侧形式的函数称为称为逻辑函数。下图给出其函数图象形式。

clip_image008

 

其中。如果含有名义变量,则将其变为dummy变量一个具有k个取值的名义变量,将变为k-1个dummy变量。这样,有

(1.2)

  定义不发生事件的条件概率为

 (1.3)

那么,事件发生与事件不发生的概率之比为

clip_image016                                       (1.4)

这个比值称为事件的发生比(the odds of experiencing an event),简称为odds。因为0<p<1,故odds>0。对odds取对数,即得到线性函数

      (1.5),

 

1.2极大似然函数

  假设有n个观测样本,观测值分别为clip_image020clip_image022为给定条件下得到yi=1(原文clip_image024)的概率。在同样条件下得到yi=0(clip_image026)的条件概率为clip_image028。于是,得到一个观测值的概率为

                                                (1.6)     -----此公式实际上是综合前两个等式得出,并无特别之处

 因为各项观测独立,所以它们的联合分布可以表示为各边际分布的乘积。

                                     

上式称为n个观测的似然函数。我们的目标是能够求出使这一似然函数的值最大的参数估计。于是,最大似然估计的关键就是求出参数clip_image034,使上式取得最大值。

对上述函数求对数

   (1.8)

上式称为对数似然函数。为了估计能使clip_image038取得最大的参数clip_image034[1]的值。

对此函数求导,得到p+1个似然方程。

           (1.9)

,j=1,2,..,p.-----p为独立向量个数


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值