Machine Learning 学习笔记(五)———Logistic回归

Machine Learning 学习笔记(五)———Logistic回归

说在前面:

  • 从本次笔记开始,我们开始讨论机器学习的另一个问题,分类问题,分类问题的输出结果是离散的,一般是0/1,有时也有其他的离散值。比如说我们在第一篇笔记中提到的垃圾邮件问题:如何判断一封邮件是有用的邮件还是垃圾邮件;还有判断肿瘤是良性还是恶性的问题等等,这些可以说都是分类问题。下面我们就开始讨论这个问题。

1.分类(classification)

  • 问题描述:假设有一个肿瘤的良性恶性数据集如下,1代表良性,0代表恶性,横坐标为Tumor Size(肿瘤大小)预测肿瘤大小肿瘤的情况。
    在这里插入图片描述

  • 假设我们采用之前的线性回归的方法来分析这个问题,看下效果如何,我们肯定需要根据数据集拟合回归直线,那么我们拟合出来的结果大概应该如下:

    [外链图片转存失败(img-emUGoF1F-1563250047282)(C:\Users\wangdi\AppData\Roaming\Typora\typora-user-images\1563176429429.png)]

我们的假设函数还是h(x),通过拟合的直线,我们可以设定当h(x)>0.5时,认为肿瘤是恶性的,当h(x)<0.5时,认为肿瘤是良性的,看横坐标,当肿瘤大小大于图上的中点时,认为是恶性的,反之;这样来看似乎用线性回归的方法可以解决分类问题,至少这样来分的话可以分类,但是不要太早下结论,下面在右边加一个点,我们再来拟合直线,我们再讨论一下:

在这里插入图片描述

  • 这时候我们只增加了一个数据(右边的一个点),我们再拟合出来的直线就是蓝色的线,这时我们再用横坐标大于蓝色的中间的点来说明是恶性的就出现问题了,发现蓝色点左边也有点是恶性的,并不是良性的,这就说明前面的那种情况是运气较好,线性回归还是解决不了分类问题的;另一方面我们已经知道y的取值范围是[0,1],但是使用线性回归h(x),他的取值可以是大于1或者是小于0,可以是非常大,所以种种迹象表明线性回归解决分类问题是不合适的。所以下面我们会引入另一种方法解决分类问题。

2.假设陈述

  • 我们前面讲到要想0<=h(x)<=1,那么我们将h(x)稍微修改一下,使他的范围在[0,1]:
    设 h θ ( x ) = g ( θ T x ) g ( z ) = 1 1 + e − z 即 h θ ( x ) = 1 1 + e − θ T x 设 h_\theta(x)=g(\theta^Tx)\\ g(z) = \frac{1}{1+e^{-z}}\\即h_\theta(x)=\frac{1}{1+e^{-\theta^Tx}} hθ(x)=g(θTx)g(z)=1+ez1hθ(x)=1+eθTx1
    g(z)称为Sigmoid函数也叫Logistic函数,他的图像如下所示,范围是[0,1],z趋近于正无穷时,g(z)趋近于1,z趋近于负无穷时,g(z)趋近于0.
    在这里插入图片描述

  • 模型解释

    这里的h(x)代表我输入的x,对应的y=1的概率大小,用数学的概率论写出来就是
    h θ ( x ) = P ( y = 1 ∣ x = θ ) h_\theta(x) = P(y=1|x=\theta) hθ(x)=P(y=1x=θ)
    学过概率论的应该知道,这是一个条件概率,在x = θ的条件下发生y = 1的概率,那么由以下的公式我们还可以求得在x = θ的条件下y = 0的概率
    由 P ( y = 0 ∣ x = θ ) + P ( y = 1 ∣ x = θ ) = 1 得 P ( y = 0 ∣ x = θ ) = 1 − P ( y = 1 ∣ x = θ ) = 1 − h θ ( x ) 由P(y=0|x=\theta)+P(y=1|x=\theta) = 1\\ 得P(y=0|x=\theta) = 1-P(y=1|x=\theta)\\=1-h_\theta(x) P(y=0x=θ)+P(y=1x=θ)=1P(y=0x=θ)=1P(y=1x=θ)=1hθ(x)

3.决策界限(decision boundary)

  • 预测y值结果

    上面我们已经定义了新的h(x),那么我们如何给定一个θ,利用h(x)预测y值呢,当h(x)>=0.5时,我们可以认为y=1,反之当h(x)<0.5时,y=0;下面通过g(z)的图像进一步寻找y=1的条件:
    在这里插入图片描述
    当 z ≥ 0 时 , g ( z ) ≥ 0.5 , y = 1 即 θ T x ≥ 0 时 , y = 1 当 z &lt; 0 时 , g ( z ) &lt; 0.5 , y = 0 即 θ T x &lt; 0 时 , y = 0 当z \geq0时,g(z)\geq0.5,y=1\\即\theta^Tx\geq0时,y=1\\ 当z&lt;0时,g(z)&lt;0.5,y=0\\即\theta^Tx&lt;0时,y=0 z0g(z)0.5y=1θTx0y=1z<0g(z)<0.5y=0θTx<0y=0

  • 下面我们来看一个例子更好得理解上面的结论:
    在这里插入图片描述

    这是一个数据集画出来的图像,我们还没有讲如何根据数据集来获得参数θ,后面我们会讨论如何寻找θ,在这里我们假设已经知道假设函数为
    h θ ( x ) = g ( θ 0 + θ 1 x 1 + θ 2 x 2 ) θ 0 = − 3 θ 1 = 1 θ 2 = 1 即 : θ T x = − 3 + x 1 + x 2 h_\theta(x) =g(\theta_0+\theta_1x_1+\theta_2x_2)\\\theta_0 =-3\quad \theta_1=1\quad\theta_2 =1\\即:\theta^Tx=-3+x_1+x_2 hθ(x)=g(θ0+θ1x1+θ2x2)θ0=3θ1=1θ2=1θTx=3+x1+x2
    根据上面的预测y=1的条件,要使y=1就需要满足-3+x1+x2>=0,即x1+x2>=3;这里我们如果学过高中的线性规划,我们很快就发现他所表示的是一个区域,先把x1+x2=3这条直线画出来,在他上方的区域就是y=1的区域,在他下方的区域就是y=0的区域:
    在这里插入图片描述

  • 下面我们再来看一个较复杂的例子:

在这里插入图片描述

前面我们已经知道了可以用多项式来拟合曲线,这样得到的线就不一定是直线了,和上面一样假设我们已经知道了h(x)以及参数0:
h θ ( x ) = g ( θ 0 + θ 1 x 1 + θ 2 x 2 + θ 3 x 1 2 + θ 4 x 2 2 ) θ 0 = − 1 θ 1 = θ 2 = 0 θ 3 = θ 4 = 1 即 : θ T x = − 1 + x 1 2 + x 2 2 所 以 当 x 1 2 + x 2 2 ≥ 1 时 y = 1 ; h_\theta(x)=g(\theta_0+\theta_1x_1+\theta_2x_2+\theta_3x_1^2+\theta_4x_2^2)\\\theta_0=-1\quad\theta_1=\theta_2=0\quad\theta_3=\theta_4=1\\即:\theta^Tx=-1+x_1^2+x_2^2\\所以当x_1^2+x_2^2\geq1时\quad y=1; hθ(x)=g(θ0+θ1x1+θ2x2+θ3x12+θ4x22)θ0=1θ1=θ2=0θ3=θ4=1θTx=1+x12+x22x12+x221y=1;
相类似的画出图像分区如下,可以发现这个分界线就不是直线而是一个圆,如果拟合的多项式更复杂,那分界线可能就是不规则的曲线:

在这里插入图片描述

4.代价函数

  • 上面我们已经知道了h(x)的含义以及如何预测y的值,那么我们下面就来讨论如何找出参数矩阵0,找参数我们就不得不想到前面我们讨论线性回归时的代价函数,他是我们评价0是否合理的一个评判标准,前面的代价函数为:
    J ( θ ) = 1 2 m ∑ i = 1 m ( h ( x ( i ) ) − y ( i ) ) 2 现 在 把 1 / 2 移 到 里 面 J ( θ ) = 1 m ∑ i = 1 m 1 2 ( h ( x ( i ) ) − y ( i ) ) 2 再 用 C o s t ( h ( x ) , y ) 来 代 替 1 2 ( h ( x ( i ) ) − y ( i ) ) 2 J ( θ ) = 1 m ∑ i = 1 m C o s t ( h ( x ) , y ) 其 中 h ( x ) = 1 1 + e − θ T x J(\theta)=\frac{1}{2m}\sum_{i=1}^{m}(h(x^{(i)})-y^{(i)})^2\\现在把1/2移到里面\quad J(\theta)=\frac{1}{m}\sum_{i=1}^{m}\frac{1}{2}(h(x^{(i)})-y^{(i)})^2\\再用Cost(h(x),y)来代替\quad\frac{1}{2}(h(x^{(i)})-y^{(i)})^2\\J(\theta)=\frac{1}{m}\sum_{i=1}^{m}Cost(h(x),y)\quad 其中h(x)=\frac{1}{1+e^{-\theta^Tx}} J(θ)=2m1i=1m(h(x(i))y(i))21/2J(θ)=m1i=1m21(h(x(i))y(i))2Cost(h(x),y)21(h(x(i))y(i))2J(θ)=m1i=1mCost(h(x),y)h(x)=1+eθTx1

这个代价函数对于线性回归问题非常好,但是对于逻辑回归,由于h(x)不是线性的,画出的J(0)的图像就会出现如下状态,再使用梯度下降的时候就会出现很多局部最优解,导致求出的0不是最低点,不能很好的拟合0.

在这里插入图片描述

这是一个非凸函数,我们想要找的代价函数是一个凸函数,在利用梯度下降时可以找到全局最优解:
在这里插入图片描述

  • 我们为了使代价函数为凸函数,我们新定义Cost(h(x),y):
    C o s t ( h θ ( x ) , y ) = { − l o g ( h θ ( x ) ) y = 1 − l o g ( 1 − h θ ( x ) ) y = 0 Cost(h_\theta(x),y)=\left\{\begin{matrix} -log(h_\theta(x)) &amp;y=1 \\ -log(1-h_\theta(x)) &amp; y=0 \end{matrix}\right. Cost(hθ(x),y)={log(hθ(x))log(1hθ(x))y=1y=0

采用对数定义的好处通过对数的图像就可以发现,当y=1时,Cost(h(x),y)的图像如下图所示,当h(x)=1时,Cost(h(x),y)=0,说明预测值与真实值相同,代价为0,而当h(x)趋近于0时,Cost(h(x),y)趋近于无穷,预测值与真实值相反,代价为无穷.这刚好符合我们的预测结果.

在这里插入图片描述

当y=0时,我们会得到如图所示,当h(x)=0时,Cost(h(x),y)=0,预测值与真实值相同,代价为0,当h(x)趋近于1时,Cost(h(x),y)趋近于无穷,预测值与真实值相反,代价为无穷。

在这里插入图片描述

  • 新定义的代价函数可以有效的描述我们的逻辑回归,并且得到的代价函数为凸函数,后面可以使用梯度下降进行更新0的值。

5.简化代价函数与梯度下降

  • 前面我们已经得到了Logistic回归的代价函数,由于他有两个条件判断,所以在计算代价的时候会不方便,下面我们就把Cost(h(x),y)函数进行化简,整合成一个式子:
    C o s t ( h θ ( x ) , y ) = { − l o g ( h θ ( x ) ) y = 1 − l o g ( 1 − h θ ( x ) ) y = 0 ( 原 来 的 函 数 ) 化 简 过 后 的 函 数 : C o s t ( h θ ( x ) , y ) = − y l o g ( h θ ( x ) ) − ( 1 − y ) l o g ( 1 − h θ ( x ) ) Cost(h_\theta(x),y)=\left\{\begin{matrix} -log(h_\theta(x)) &amp;y=1 \\ -log(1-h_\theta(x)) &amp; y=0 \end{matrix}\right.\quad (原来的函数)\\化简过后的函数:\\ Cost(h_\theta(x),y)=-ylog(h_\theta(x))-(1-y)log(1-h_\theta(x)) Cost(hθ(x),y)={log(hθ(x))log(1hθ(x))y=1y=0()Cost(hθ(x),y)=ylog(hθ(x))(1y)log(1hθ(x))
    可以简单的验证一下,把y=0和y=1分别带入式子,就发现和上面的式子是等价的,这样化简的好处是求代价的时候不用分开讨论,并且在后面梯度下降的时候一个式子也比较方便。

  • 下面我们把Cost(h(x),y)函数带入到J(θ)里面得到最终的代价函数:
    J ( θ ) = 1 m ∑ i = 1 m C o s t ( h θ ( x ( i ) ) , y ( i ) ) = − 1 m [ ∑ i = 1 m y ( i ) l o g h θ ( x ( i ) ) + ( 1 − y ( i ) ) l o g ( 1 − h θ ( x ( i ) ) ) ] J(\theta)=\frac{1}{m}\sum_{i=1}^{m}Cost(h_\theta(x^{(i)}),y^{(i)})\\ =-\frac{1}{m}[\sum_{i=1}^{m}y^{(i)}logh_\theta(x^{(i)})+(1-y^{(i)})log(1-h_\theta(x^{(i)}))] J(θ)=m1i=1mCost(hθ(x(i)),y(i))=m1[i=1my(i)loghθ(x(i))+(1y(i))log(1hθ(x(i)))]

  • 得到了代价函数,下面我们和之前线性回归一样目的是要求min(J(θ)),那么我们马上就要想到用梯度下降法,结合梯度下降的初始条件,我们可以求导推出Logistic回归的梯度下降更新表达式:
    由 θ j = θ j − α ∂ J ( θ ) ∂ θ j 得 : θ j = θ j − α 1 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) x j ( i ) 由\quad\theta_j=\theta_j-\alpha\frac{\partial J(\theta)}{\partial\theta_j}\quad 得:\\\theta_j=\theta_j-\alpha\frac{1}{m}\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})x_j^{(i)} θj=θjαθjJ(θ)θj=θjαm1i=1m(hθ(x(i))y(i))xj(i)

这里推导出来的梯度下降θ的更新表达式,可以和前面的线性回归的表达式做对比发现形式是一摸一样的,但实际上两个不是一个模型,因为这里的h(x)不是线性的,而是:
h θ ( x ) = 1 1 + e − θ T x h_\theta(x)=\frac{1}{1+e^{-\theta^Tx}} hθ(x)=1+eθTx1
所以两个模型虽然表达式一样,但实际计算的时候还是有很大差别的。这里再次提醒一下,θ值是同时更新的!!!

  • 到这里我们就把Logistic回归的梯度下降算法给讲完了,我们前面所讲的使其快速下降的特征缩放方法到Logistic回归依然可以用,同样可以使梯度下降速度加快。

6.高级优化

  • 实际上我们寻找J(θ)的最小值的时候不止用梯度下降算法,还有许多算法可以寻找J(θ)的最小值,比如说:Conjugate gradient、BFGS、L-BFGS等算法,这些算法会比梯度下降更快得找到最优解,他们不需要控制a,他们会自己在某些时刻改变a的值,从而更快得找到最优解,这些算法可以用于许多数据集的情况,效果往往比梯度下降算法好得多,但是理解他们需要很长时间,他们的算法比较复杂,这里不在陈述具体算法,我们只讨论一下如何调matlab中的库来用这些算法到Logistic回归中:

  • 下面给出一个简单的例子:
    θ = [ θ 1 θ 2 ] J ( θ ) = ( θ 1 − 5 ) 2 + ( θ 2 − 5 ) 2 ∂ J ( θ ) ∂ θ 1 = 2 ( θ 1 − 5 ) ∂ J ( θ ) ∂ θ 2 = 2 ( θ 2 − 5 ) \theta = \left[\begin{array}{cc}\theta_1 \\\theta_2\\ \end{array}\right]\\ J(\theta) = (\theta_1-5)^2+(\theta_2-5)^2\\ \frac{\partial J(\theta)}{\partial\theta_1}=2(\theta_1-5)\\\frac{\partial J(\theta)}{\partial\theta_2}=2(\theta_2-5) θ=[θ1θ2]J(θ)=(θ15)2+(θ25)2θ1J(θ)=2(θ15)θ2J(θ)=2(θ25)
    我们要用到库函数 fminunc(),我们要先定义一个function:

    function [jVal,gradient] = costFunction(thete)
    	jVal = (theta(1)-5)^2 + (theta(2)-5)^2;
    	gradient = zeros(2,1);
    	gradient(1) = 2*(theta(1)-5);
    	gradient(2) = 2*(theta(2)-5);
    

    之后调用的时候如下调用:

    options = optimset('GradObj','on','MaxIter','100');%设置下降为ON,最大迭代次数为100
    initialTheta = zeros(2,1);   %初始化theta向量
    [optTheta,functionVal,exitFlag] = fminunc(@costFunction,initialTheta,options);%'@'表示对象的指针
    

    这就是使用库函数调用高级优化的方法,它不需要我们自己设置a(学习速率),他会自己在迭代的过程中改变a的值。

  • 如果有多个θ的情况,我们只需要改变costFunction(theta)就可以,整体的模板如下:

    function [jVal,gradient] = costFunction(theta)
    	jVal = [code to compute J(θ)];
    	gradient(1) = [code to compute J(θ0)'];
    	gradient(2) = [code to compute J(θ1)'];
    	···
    	gradient(n+1) = [code to compute J(θn)'];
    

7.多元分类:一对多

  • 生活中我们经常碰到一对多的问题,而不是简单的二元分类问题,比如说邮件分类问题,收到一封邮件,可以有很多分类:家人、同事、广告等,需要判断一封邮件到底属于哪个分类;再比如说现在比较重视的垃圾分类:可回收垃圾、不可回收垃圾、塑料垃圾、电池等分类,这都是一对多的问题。

  • 下面我们把这些问题抽象出来,给出一个例子来讨论如何解决多分类问题:

在这里插入图片描述

现在我们有三个分类,三角形、红叉、正方形,现在要给定x1、x2预测到底属于哪一类,多元分类的离散值可以取y=1、y=2、y=3,对于这种问题,我们还是把他看成多个二元分类问题来解决,先单独看三角形,把另外两个看成一类,这就成了前面的二元分类问题,求出h(x),再单独看正方形,求出h(x),再单独看红叉,这样做三次二元回归问题,就把每一类所发生的概率h(x)给求出来了。

在这里插入图片描述
h θ ( i ) ( x ) = P ( y = i ∣ x = θ ) ( i = 1 , 2 , 3 ) h_\theta^{(i)}(x)=P(y=i|x=\theta)\quad(i=1,2,3) hθ(i)(x)=P(y=ix=θ)(i=1,2,3)

  • 那么最后求出三个h(x),再给定x1,x2进行预测的时候就算一下三个h(x),求出哪一个最大那么就分为哪一类,即求出max(h(x)),这样就成功得解决了多元分类问题。
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值