逻辑回归算法

一、逻辑回归与线性回归区别与联系

  • 区别

                     

  • 联系

                  把线性回归模型简写为

                                                      y = \omega ^{T}x+b                              (3.2)

                  对y取对数,得到对数线性回归

                                                     lny=\omega ^Tx+b

                 上式实际上是在试图让e^{w^Tx+b}逼近y。虽然形式上是线性回归,但实质上已是在求取输入空间到输出空间的非线性函                     数映射。更一般地,可以得到以下广义线性模型

                                                    y = g^{-1}(w^Tx+b)

                  这里另g^{-1}(\cdot )等于对数几率函数y=\frac{1}{1+e^{-z}},可得到以下模型

                                                  y = \frac{1}{1+e^{-(w^Tx+b)}}

二、逻辑回归原理

       对数线性模型,对(3.2)式两边取对数得

                                           lnf(x)=lne^{(w^{T}x+b)}

           简化为以下形式

                                          y=g^{-1}(w^{T}x+b)                                                  (3.15)

         引入对数几率函数      y=\frac{1}{1+e^{-z}}

         将对数几率函数带入(3.15)式,得

                                y=\frac{1}{1+e^{-(w^{T}x+b)}}                                            (3.18)

                                \frac{y}{1-y}=e^{(w^Tx+b)}                                               (3.18.1)

          两边取对数,转化为对数线性回归模型,得

                             ln\frac{y}{1-y}=w^{T}x+b

          概率模型           ln\frac{p(y=1|x)}{p(y=0|x)}=w^{T}x+b

          有(3.18)式转换可得,

                           p(y=1|x)=\frac{e^{w^{T}x+b}}{1+e^{w^{T}x+b}},                                             (3.23)

                           p(y=0|x)=1-p(y=1|x)=\frac{1}{1+e^{w^{T}x+b}}                   (3.24)

三、损失函数 

         逻辑回归跟线性回归不同,采用的损失函数是极大似然函数。     

         逻辑回归模型最大化“对数似然”

                          \l (w,b)= \sum_{i=1}^{m}lnp(y_{i}|x_{i};w,b)                                                      (3.25)

         令\beta =(w;b)x^{'}=(x;1),则w^{T}x+b可简写成\beta ^{T}x^{'}.再令p_{1}(x^{'};\beta )=p(y=1|x^{'};\beta )

 p_{0}(x^{'};\beta )=p(y=0|x^{'};\beta )=1-p_{1}(x^{'};\beta ),则式(3.25)中的似然项可重写为

                              p(y_{i}|x_{i};w,b)=y_{i}p_{1}(x^{'}_{i};\beta )+(1-y_{i})p_{0}(x^{'}_{i};\beta )                      (3.26)

      当y_{i}=1y_{i}=0,即可获得式(3.23)和(3.24)

          (3.23)式用\beta简写,    p_{1}(x^{'}_{i};\beta )=\frac{e^{\beta ^{T}x^{'}_{i}}}{1+e^{\beta ^{T}x^{'}_{i}}}

           等式两边取对数

                     lnp_{1}(x^{'}_{i};\beta )=ln\frac{e^{\beta ^{T}x^{'}_{i}}}{1+e^{\beta ^{T}x^{'}_{i}}}=lne^{\beta ^{T}x^{'}_{i}}-ln(1+e^{\beta ^{T}x^{'}_{i}})=\beta ^{T}x^{'}_{i}-ln(1+e^{\beta ^{T}x^{'}_{i}})

           (3.24)式用\beta简写, p_{0}(x^{'}_{i};\beta )=\frac{1}{1+e^{\beta ^{T}x^{'}_{i}}}

            等式两边取对数lnp_{1}(x^{'}_{i};\beta )=ln\frac{1}{1+e^{\beta ^{T}x^{'}_{i}}}=-ln(1+e^{\beta ^{T}x^{'}_{i}})=-ln(1+e^{\beta ^{T}x^{'}_{i}})

      由以上可得,我们将(3.26)带入(3.25),可得到最小化公式

                           \l (\beta )= \sum_{i=1}^{m}lnp(y_{i}|x_{i};\beta)= \sum_{i=1}^{m}(-y_{i}\beta ^{T}x^{'}_{i}+ln(1+e^{\beta ^{T}x^{'}_{i}}))           (3.27)

       令y_{i}=1y_{i}=0,即可得到以上推导过程,式(3.27)为最小化,(3.25)为最大化,

所以上式加了个负号。

              代价函数为:J(\beta ) = \frac{1}{m}\sum_{i=1}^{m}(-y_i\beta ^Tx_i^{'}+ln(1+e^{\beta^Tx_i^{'}} ))

四、正则化与评估指标

  • 正则化

           包括L1范数和L2范数。

            首先针对L1范数,正则化项为\frac{\lambda }{m}\omega,目标函数如下

                                                  J(\beta ) = \frac{1}{m}\sum_{i=1}^{m}(-y_i\beta ^Tx_i^{'}+ln(1+e^{\beta^Tx_i^{'}} )+\lambda \omega )

            当采用梯度下降方式来优化目标函数时,对目标函数进行求导,正则化项导致的梯度变化当wj>0时取1,

    当wj<0时取-1.

             L2范数,正则化项为\frac{\lambda }{2m}\sum_{i=j}^{n}\omega _j^2,目标函数如下

                                               J(\beta ) = \frac{1}{m}\sum_{i=1}^{m}(-y_i\beta ^Tx_i^{'}+ln(1+e^{\beta^Tx_i^{'}} )+\frac{\lambda}{2} \sum_{j=1}^{n}\omega_j^2 )

             同样对它求导,正则化项导数为\omega _j

  • 评估指标

       ROC曲线

               ROC曲线的横坐标为false positive rate(FPR),纵坐标为 true positive rate(TPR) 当测试集中的正负样

        本的分布变化的时候,ROC曲线能够保持不变。根据每个测试样本属于正样本的概率值从大到小排序,依次将

        “Score”值作为阈值 ,当测试样本属于正样本的概率 大于或等于这个阈值时,认为它为正样本,否则为负样本。

       计算出ROC曲线下面的面积,就是AUC的值。 介于0.5和1.0之间,越大越好。

      Kappa statics 
              Kappa值,即内部一致性系数(inter-rater,coefficient of internal consistency),是作为评价判断的一致性程度

       的重要指标。取值在0~1之间。Kappa≥0.75两者一致性较好;0.75>Kappa≥0.4两者一致性一般;Kappa<0.4两

       者一致性较差。 

      Mean absolute error 和 Root mean squared error 
              平均绝对误差和均方根误差,用来衡量分类器预测值和实际结果的差异,越小越好。

      Relative absolute error 和 Root relative squared error 
             相对绝对误差和相对均方根误差,有时绝对误差不能体现误差的真实大小,而相对误差通过体现误差占真值

      的比重来反映误差大小。                                     

五、优缺点

                         

六、样本不均衡问题解决方法

          样本不均衡也称为类别不均衡,即每个类别的数据量是不一样的。

          假设有三个类别,分别为A,B,C。在训练集中,A类的样本占70%,B类的样本占25%,C类的样本占5%。

  最后我的分类器对类A的样本过拟合了,而对其它两个类别的样本欠拟合。

          解决方法:

          1、产生新样本

               过采样:将稀有类别的样本进行复制,通过增加此稀有类样本的数量来平衡数据集;

               欠采样:从丰富类别的样本中随机选取和稀有类别相同数目的样本,通过减少丰富类的样本量来平衡数据集。

          2、修改权重

               在训练分类器时,为稀有类别的样本赋予更大的权值,为丰富类别的样本赋予较小的权值。

七、sklearn.linear_model.LogisticRegression

    

参考链接:https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html#sklearn.linear_model.LogisticRegression

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值