线性回归是为了预测,逻辑回归是为了分类。
线性回归
线性回归的一般形式:
f(x)=wTx+b
个人理解就是讲数据集中各个离散的点通过 wTx+b 映射到一条直线上。(受到之前讲LDA算法的启发)所以也就是要找到向量w,b
确定w,b关键在于衡量f(x)和真实的y值之间的差距。我们希望差距越小越好,所以采用最小二乘法,最小二乘法就是基于均方误差最小化来进行模型求解的方法
(w∗,b∗)=argmin∑i=1m(f(xi)−yi)2
通过求偏导数或者梯度下降算法求得最小值,此处不再赘述
线性模型的预测值还可以逼近真实值y的衍生物。比如
lny=wTx+b
就是将线性模型的预测值与指数尺度 相对应
y′=wTx+b
那么
y=ey′
也就是将线性模型的预测值映射到了指数函数上。
逻辑回归
正如之前最后所讲的,线性回归模型的预测值也可以映射到逻辑函数上,这样大于0.5的一类,小于0.5的一类,从而达到分类的目的。
y′=11+e−(wTx+b)
取对数可变化为
lny′1−y′=wTx+b
此时形成了线性模型与指数函数的映射关系。y表示了样本x为正例的可能性1-y表示了样本为反例的可能性,重写函数:
y′=p(y=1|x)=11+e−(wTx+b)=ewTx+b1+ewTx+b
(1−y′)=p(y=0|x)=11+ewTx+b
我们通过极大似然法确定 w,b的值,对于给定的数据集我们希望样本属于它真实标记的概率值越大越好,那么我们需要对数似然模型最大化
l(w,b)=∑i=1mln(p(yi|xi;w,b))
因为:
p(yi|xi;w,b)=yip(yi=1|xi;w,b)+(1−yi)p(yi=0|xi;w,b)
那么似然函数可以表示为:
l(w,b)=∑i=1myiln(p(yi=1|xi;w,b))+(1−yi)ln(p(yi=0|xi;w,b)))
令 β=(w,b),x^=(x,1) 那么, βTx^=wTx+b 简化上式并取负值,因为原来的似然函数的目标是样本属于真实值的概率越大越好,取反之后就是需要最小化似然函数
l(β)=∑i=1m(−yiβTx^+ln(1+eβTx^))
然后就到了最熟悉的梯度下降方法求解了。
这里对每一个 wi 求导
∂l∂wi=∑i=1m−yixi+eβTx^1+eβTx^xi
化简:
∂l∂wi=∑i=1m(y′i−yi)xi
其中
y′i是预测值