逻辑回归(logistic regression)原理详解

机器学习解决的问题,大体上就是两种:数值预测和分类。前者一般采用的是回归模型,比如最常用的线性回归;后者的方法则五花八门,决策树,kNN,支持向量机,朴素贝叶斯等等模型都是用来解决分类问题的。其实,两种问题从本质上讲是一样的:都是通过对已有数据的学习,构建模型,然后对未知的数据进行预测,若是连续的数值预测就是回归问题,若是离散的类标号预测,就是分类问题。

这里面有一类比较特殊的算法,就是逻辑回归(logistic regression)。它叫“回归”,可见基本思路还是回归的那一套,同时,逻辑回归又是标准的解决分类问题的模型。换句话说,逻辑回归是用与回归类似的思路解决了分类问题。

1. 阶跃函数

现在有 n n 个数据元组 { X 1 , X 2 , , X n } ,每个数据元组对应了一个类标号 yi y i ,同时每个数据元组 Xi X i m m 个属性 { x i 1 , x i 2 , , x i m } 。假设现在面临的是一个简单的二分类问题,类标号有0,1两种。如果用简单的回归方法对已知数据进行曲线拟合的话,我们会得到如下的曲线方程(曲线拟合的方法后面会说到):

z=f(X)=w0+w1x1+w2x2++wmxm(1) (1) z = f ( X ) = w 0 + w 1 x 1 + w 2 x 2 + ⋯ + w m x m

注:并不是说逻辑回归只能解决二分类问题,但是用到多分类时,算法并没有发生变化,只是用的次数更多了而已。

实际上,逻辑回归分类的办法与SVM是一致的,都是在空间中找到曲线,将数据点按相对曲线的位置,分成上下两类。也就是说,对于任意测试元组 X X ∗ f(X) f ( X ∗ ) 可以根据其正负性而得到类标号。那换句话说,直接依靠拟合曲线的函数值是不能得到类标号的,还需要一种理想的“阶跃函数”,将函数值按照正负性分别映射为0,1类标号。这样的阶跃函数 ϕ(z) ϕ ( z ) 如下表示:

ϕ(z)=0,   z<00.5,   z=01,   z>0(2) (2) ϕ ( z ) = { 0 ,       z < 0 0.5 ,       z = 0 1 ,       z > 0

然而,直接这样设计阶跃函数不方便后面的优化计算,因为函数值不连续,无法进行一些相关求导。所以,逻辑回归中,大家选了一个统一的函数,也就是Sigmoid函数,如公式(1)所示:

ϕ(z)=11+ez(1) (1) ϕ ( z ) = 1 1 + e − z

Sigmoid函数的图像如下图所示,当

  • 73
    点赞
  • 402
    收藏
    觉得还不错? 一键收藏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值