Machine Learning逻辑回归(Logistic Regression)

分类问题

  在分类问题中,我们会去尝试预测结果是否属于某一个类(比如正确或错误)。分类问题是一个判断类的问题,例如判断一封电子邮件是否为垃圾邮件,判断一个肿瘤是良性还是恶性的。
  我们将因变量(dependant variable)可能属于的两个类分别称为负向类(negative class)和正向类(positive class),则因变量y={0,1},其中0表示负向类,1表示正向类。
  如果我们要用线性回归算法来解决一个分类问题,对于分类,y取值为0或者1,单如果你使用的是线性回归,那么假设函数的输出值可能大于1,或者远小于0,也可能所有训练样本的标签y都等于0或1.尽管我们知道标签应该取值0或者1,但是如果算法得到的值远大于1或者远小于0的话,就会感觉很奇怪。这就是我们想要研究的算法–逻辑回归算法,它的性质就是:输出值永远在0到1之间。
  逻辑回归算法实际上是一种分类算法。

假说表示 (Hypothesis Representation)

  因为是逻辑回归算法,所以我们希望分类器的输出值在0和1之间。这里写图片描述
  这是我们上面说到的肿瘤的良性和恶性的分类问题,我们可以用线性回归直线来表示,根据线性回归模型我们只能预测连续的值,然而对于分类问题,我们需要输出0和1,从图中我们可以预测:当h>=0.5,预测y=1.当h<0.5,预测y=0。从图中我们可以看出,我们给出的这个模型似乎能很好地完成我们的任务。但是当我们观测到一个非常大尺寸的恶性肿瘤时,如果将这个值加入到我们的训练集中,这时我们会获得一条新的直线。这里写图片描述
  这是我们发现,此时如果我们再使用0.5来鉴别便变得不是那么合适了。我们此时便会发现此时再使用线性回归变得不是那么合适了。因为其预测的值超过0,1此时我们就需要引入一个新的模型,逻辑回归,该模型的输出变量范围始终在0和1之间。回归模型假设是这里写图片描述
  X代表特征向量,g代表逻辑函数是。是一个S型函数(sigmoid function),公式是:g(z)=1/(1+e^-z).该函数的图像是
  这里写图片描述
  将上述公式代入得:这里写图片描述
  h(x)的作用是,对于给定的输入变量,根据选择的参数计算输出变量=1的可能性这里写图片描述
  例如:给定一个值用公式计算出P为0.7那么他的可能性就是百分之70,意味着正向性为0.7负向性为1-0.3.

判定边界

  根据我们上面的逻辑回归公式我们可以预测一些东西。
  根据我们最初绘制出的S形函数图像,我们知道当
  z=0时g(z)=0.5
  z>0时g(z)>0.5
  z<0时g(z)<0.5
  Θ的转置*x大于等于0时,预测y=1
  Θ的转置*x大于等于0时,预测y=0
  现在我们假设一个模型
  这里写图片描述
  我们设定参数为【3,1,1】。代入我们的公式得到x1+x2=3,我们可以绘制出它的图像
我们可以很明显地看出一条直线将其分割成了两个部分我们很明显地看出在线上的部分Y=0的区域和y=1的区域。此时这条线就是我们所说的判定边界线。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值