给定多元输入 x=(x1,x2,...,xn)T ,让预测其可能的输出 y 。遇到此类问题,稍微学习过高等数学或统计分析的人,大脑中首先闪现的方法肯定是线性回归!找到如下的关系式:
那么任何时候给定任何值,都可以轻而易举地得到对应的输出。虽说线性回归分析简单直观、易于理解,但是如何确定参数 w 和 w0 却是让人头疼的问题。常用的方法就是提前观察到一组输入-输出值: (x1,y1) 、 (x2,y2) 、… 、 (xn,yn) ,再利用优化问题
确定参数 w 和 w0 ( 监督学习)。知道 w 和 w0 后就可以用得到的回归关系式愉快的玩耍了。
可回归与分类又有什么关系呢?其实分类问题也是预测问题:给定样本对象值,预测其可能属于的类别。既然同样是预测问题,那便可以用回归的思想来进行建模。不过稍微深入的思考一下便会发现,直接利用线性回归关系进行分类预测是不可取的。因为一般分类问题的可能输出都是离散有限的,而线性回归的输出域却是 (−∞,∞) 。在知道了输入对象的值后,明显无法清晰直观的通过回归关系进行类别判定。那是不是回归分析就不能用于预测分类,答案明显是否定的。
虽说线性回归无法直接用于分类预测,但可以对其加层映射:将连续无穷输出映射到指定的有限输出。逻辑回归(Logistic Regression, LR)便是基于此思想在线性回归的结果上加上一个逻辑函数,将连续输出映射到 [0,1] 输出。逻辑回归是统计学习中的经典分类方法,通过历史数据的表现对未来结果发生的概率进行预测分类,概率大于一定阈值,输出为1,否则输出为0。
一、逻辑函数
在展开描述逻辑回归之前,先隆重介绍一下逻辑函数。设 x 是连续随机变量,则其对应的逻辑函数的数学形式是:
g(x)