机器学习:2、Logistic regression (逻辑回归)

     Logistic regression (逻辑回归)是当前业界比较常用的机器学习方法,用于估计某种事物的可能性。比如某用户购买某商品的可能性,某病人患某种疾病的可能性,以及某广告被用户点击的可能性等。Logistic regression可以用来回归,也可以用来分类,主要是二分类,它的输出是对应类别的概率。


      定义:

        

       假设我们的样本是{x, y},y是0或者1,表示正类或者负类,x是我们的m维的样本特征向量。那么这个样本x属于正类,也就是y=1的“概率”可以通过下面的逻辑函数来表示:

      

      写成统一的形式为:

                                            


      同时定义样本出现于不出现概率的比值:

                

     对于整个样本集,其n个独立样本同时出现的概率为:



      两边取对数:



       最大似然法就是求模型中使得似然函数最大的系数取值θ,那么此时上述的似然函数就是我们的代价函数了,我们的目标是求上述似然函数的最大值,怎么求???  梯度上升法

        对上式求导:

                   

          即:

                             

          利用梯度上升法进行参数更新: 

          梯度下降只需要将加号改为减号:


   梯度下降(gradient descent)

    Gradient descent 又叫 steepest descent,是利用一阶的梯度信息找到函数局部最优解的一种方法,也是机器学习里面最简单最常用的一种优化方法。要找最小值,我只需要每一步都往下走(也就是每一步都可以让代价函数小一点),然后不断的走,最后肯定能走到最小值的地方。但我们同时也需要更快的到达最小值,怎么办呢?我们需要每一步都找下坡最快的地方,也就是每一步我走某个方向,都比走其他方法,要离最小值更近。而这个下坡最快的方向,就是梯度的负方向了:

                                            

    其中,参数α叫学习率,就是每一步走多远,这个参数很关键。如果设置的太多,那么很容易就在最优值附加徘徊,因为你步伐太大了。大的学习率的好处是能很快的从远离最优值的地方回到最优值附近,只是在最优值附近的时候,它有心无力了。但如果设置的太小,那收敛速度就太慢了,向蜗牛一样,虽然会落在最优的点,但是这速度会非常慢,所以有的改进就是在这个学习率这了。开始迭代时,学习率大,慢慢的接近最优值的时候,学习率变小就可以了。

 

梯度下降算法的伪代码如下:

===============================================

初始化回归系数为1

重复下面步骤直到收敛{

        计算整个数据集的梯度

        使用alpha x gradient来更新回归系数

}

返回回归系数值

===============================================


   随机梯度下降SGD (stochastic gradient descent)

    梯度下降算法在每次更新回归系数的时候都需要遍历整个数据集(计算整个数据集的回归误差),该方法对小数据集尚可。但当遇到有数十亿样本和成千上万的特征时,就有点力不从心了,它的计算复杂度太高。改进的方法是一次仅用一个样本点(的回归误差)来更新回归系数。这个方法叫随机梯度下降算法。由于可以在新的样本到来的时候对分类器进行增量的更新(假设我们已经在数据库A上训练好一个分类器h了,那新来一个样本x。对非增量学习算法来说,我们需要把x和数据库A混在一起,组成新的数据库B,再重新训练新的分类器。但对增量学习算法,我们只需要用新样本x来更新已有分类器h的参数即可),所以它属于在线学习算法。与在线学习相对应,一次处理整个数据集的叫“批处理”。

   随机梯度下降算法的伪代码如下:

===============================================

初始化回归系数为1

重复下面步骤直到收敛{

      对数据集中每个样本

           计算该样本的梯度

           使用alpha xgradient来更新回归系数

 }

返回回归系数值

===============================================



   改进的随机梯度下降

   评价一个优化算法的优劣主要是看它是否收敛,也就是说参数是否达到稳定值,是否还会不断的变化?收敛速度是否快?


    上图展示了随机梯度下降算法在200次迭代中三个回归系数的变化过程。其中系数X2经过50次迭代就达到了稳定值。但系数X1和X0到100次迭代后稳定。而且可恨的是系数X1和X2还在很调皮的周期波动,迭代次数很大了,心还停不下来。产生这个现象的原因是存在一些无法正确分类的样本点,也就是我们的数据集并非线性可分,但我们的logistic regression是线性分类模型,对非线性可分情况无能为力。然而我们的优化程序并没能意识到这些不正常的样本点,还一视同仁的对待,调整系数去减少对这些样本的分类误差,从而导致了在每次迭代时引发系数的剧烈改变。对我们来说,我们期待算法能避免来回波动,从而快速稳定和收敛到某个值。

    对随机梯度下降算法,我们做两处改进来避免上述的波动问题:

1)在每次迭代时,调整更新步长alpha的值。随着迭代的进行,alpha越来越小,这会缓解系数的高频波动(也就是每次迭代系数改变得太大,跳的跨度太大)。当然了,为了避免alpha随着迭代不断减小到接近于0(这时候,系数几乎没有调整,那么迭代也没有意义了),我们约束alpha一定大于一个稍微大点的常数项。

2)每次迭代,改变样本的优化顺序。也就是随机选择样本来更新回归系数。这样做可以减少周期性的波动,因为样本顺序的改变,使得每次迭代不再形成周期性。



   改进的随机梯度下降算法的伪代码如下:

===============================================

初始化回归系数为1

重复下面步骤直到收敛{

       对随机遍历的数据集中的每个样本

              随着迭代的逐渐进行,减小alpha的值

              计算该样本的梯度

              使用alpha x gradient来更新回归系数

    }

返回回归系数值

===============================================

比较原始的随机梯度下降和改进后的梯度下降,可以看到两点不同:

1)系数不再出现周期性波动。

2)系数可以很快的稳定下来,也就是快速收敛。这里只迭代了20次就收敛了。而上面的随机梯度下降需要迭代200次才能稳定



 求函数极值问题,除了上述的gradient descent 方法之外,还有于下面几种方法

 (1) Conjugate gradient

  (2) BFGS

  (3) LBFGS

以上几种方法相对于gradient descent的优势在于无需选择学习率α,速度更快,但是更复杂。


过拟合(overfitting

  同时在分类时,有时会遇到过拟合问题,怎么解决呢????

    1. 减少feature个数(人工定义留多少个feature、算法选取这些feature)

    2. 规格化(留下所有的feature,但对于部分feature定义其parameter非常小)








评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
>