机器学习中的Logistics逻辑回归分析

       逻辑回归(Logistic Regression, LR)又称为逻辑回归分析,是分类和预测算法中的一种。通过历史数据的表现对未来结果发生的概率进行预测。

       <一>我们首先讨论二分类的情况:

       设有线性拟合方法(这里\dpi{100} x=(x^{1},x^{2},...,x^{n})为样本x的向量化表示):

                                                                   wx=w^{0}+w^{1}x^{1}+w^{2}x^{2}+...+w^{n}x^{n}

       设样本发生的概率为P(Y=1|x),样本不发生的概率为P(Y=0|x):

                                                                  P(Y=1|x)=\frac{e^{wx}}{1+e^{wx}}=\pi (x)

                                                  P(Y=0|x)=1-\frac{e^{wx}}{1+e^{wx}}=\frac{1}{1+e^{wx}}=1-\pi (x)

        一个事件x的几率 Odd, 指的是该事件发生的概率与不发生概率的比值。 则这里事件的对数几率为:

                                      log[Odd(x)]=log(\frac{P(Y=1|x)}{P(Y=0|x)})=log(\frac{\pi(x)}{1-\pi(x)})=log(e^{wx})=wx

        可以看出,在逻辑斯蒂回归中,输出Y=1的对数几率是输入x的线性函数。

        我们用极大似然估计法估计模型参数,从而得到逻辑回归模型。似然函数为:
                                                                    \prod_{i=1}^{N}[\pi(x_{i})^{y_{i}}][1-\pi(x_{i})]^{1-y_{i}}

        N表示样本的数量。对似然函数进行对数化,得到便于计算的公式:

                                                L(w)=\sum_{j=1}^{N}[y_{j}log\pi(x_{j})+(1-y_{j})log(1-\pi(x_{j}))]\\ \indent\quad\quad=\sum_{j=1}^{N}[y_{j}log\frac{\pi(x_{j})}{1-\pi(x_{j})}+log(1-\pi(x_{j}))]\\ \indent\quad\quad=\sum_{j=1}^{N}[y_{j}wx_{j}-log(1+e^{wx_{j}})]

        要使所有训练样本的预测值与实际值之间的误差之和最小(这里使得L(w)最大化)。使用梯度下降法,在经过若干次迭代之后,误差趋于收敛。这样,最终学习到参数w。得到w之后 ,可以来计算预测样本在两个类P(Y=1|x)和P(Y=0|x)上的概率。当样本在其中一个类上的概率大于在另一个类上的概率时(或在某个类上的概率大于0.5时),则该样本属于概率较大的类。

        <二>接下来我们考虑多分类的情况:

        多分类实际上可以分解为多个二分类,即不断进行二分类。当有K个分类时,我们需要学习到K-1个权值参数。遵循和<一>中二分类一样的形式。具体为:

                                                               P(Y=k|x)=\frac{e^{w_{k}x}}{1+\sum_{k=1}^{K-1}e^{w_{k}x}}     

                                                               P(Y=K|x)=\frac{1}{1+\sum_{k=1}^{K-1}e^{w_{k}x}}

         这里,P(Y=k|x)表示样本x为第k类时的预测概率,相应的参数w_{k}为第k类的权值参数。

         根据<一>,计算第k类别的对数似然函数:

                                                           L(w_{k})=\sum_{j=1}^{N}(y_{j}w_{k}x_{j}-log(1+e^{w_{k}x_{j}}))

        训练时,如果样本x属于第k类,则P(Y=k|x)=1,否则P(Y=k|x)=0。使L(w_{k})最大化,这样学到第k分类的参数w_{k}。依据这种方法,最终学到K-1个类的权值参数w_{1},w_{2},w_{3}...w_{K-1}。输入某样本x,当第k类的预测概率最大时,则判断该样本属于第k类。

        Logistic回归有自身的优缺点:
        优点:计算代价不高,易于理解和实现
        缺点:容易欠拟合,分类精度可能不高
                  适用数据类型:数值型和标称型

       参考文献:

       http://blog.163.com/huai_jing@126/blog/static/1718619832011930826843/

       http://blog.csdn.net/armavrdsp/article/details/21614515

       http://bluewhale.cc/2016-05-18/logistic-regression.html

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值