一、线性回归
回归是一种极易理解的模型,就相当于y=f(x),表明自变量x与因变量y的关系。最常见问题
如医生治病时的望、闻、问、切,之后判定病人是否生病或生了什么病,其中的望闻问切就是
获取自变量x,即特征数据,判断是否生病就相当于获取因变量y,即预测分类。
最简单的回归是线性回归,在此借用Andrew NG的讲义,有如图1.a所示,X为数据点——
肿瘤的大小,Y为观测值——是否是恶性肿瘤。通过构建线性回归模型,如hθ (x)所示,构建线
性回归模型后,即可以根据肿瘤大小,预测是否为恶性肿瘤h θ(x)≥.05为恶性,h θ (x)<0.5为良
性。
二、逻辑回归模型
然而线性回归的鲁棒性很差,例如在图1.b的数据集上建立回归,因最右边噪点的存在,
使回归模型在训练集上表现都很差。这主要是由于线性回归在整个实数域内敏感度一致,而
分类范围,需要在[0,1]。逻辑回归就是一种减小预测范围,将预测值限定为[0,1]间的一种回
归模型,其回归方程与回归曲线如图2所示。逻辑曲线在z=0时,十分敏感,在z>>0或z<<0
处,都不敏感,将预测值限定为(0,1)。
图2 逻辑方程与逻辑曲线
逻辑回归其实仅为在线性回归的基础上,套用了一个逻辑函数g(z),但也就由于这个
逻辑函数,逻辑