1 多变量线性回归
1.1 概念
在上一篇文章中笔者详细的介绍了什么是线性回归以及一个典型的应用场景,同时还介绍了如何通过开源的sklearn来搭建一个简单的线性回归模型,使得对于线性回归的核心思想有了一定的掌握。接下来,笔记继续带领读者来进行下一步的学习。
在这里还是以房价预测为例。尽管影响房价的主要因素的面积,但是其它因素同样也可能影响到房屋的价格。例如房屋到学校的距离、到医院的距离和到大型商场的距离等等(总不能卖你一套深山老林的房子你也要吧)。虽然显示生活中没有这么量化,但是开发商也总是拿什么学区房做卖点对吧。因此,此时我们便有了影响房价的四个因素,并且在机器学习中我们将其称之为特征(feature)。因而包含有多个特征的线性回归就叫做多变量线性回归(Linear Regression Multiple Variables)。
1.2 建模
以波士顿房价数据集为例,其一共包含了13个特征属性。因此,我们便可以得到如下线性模型:
h ( x ) = w 1 x 1 + ⋯ + w 13 x 13 + b (1) h(x)=w_1x_1+\cdots+ w_{13}x_{13}+b\tag{1} h(x)=w1x1+⋯+w13x13+b(1)
且同时,其目标函数为:
J ( W , b ) = 1 2 m ∑ i = 1 m ( y ( i ) − y ^ ( i ) ) 2 y ^ ( i ) = h ( x ( i ) ) = w 1 x 1 ( i ) + ⋯ + w 13 x 13 ( i ) + b (2) \begin{aligned}&J(W,b)=\frac{1}{2m}\sum_{i=1}^m(y^{(i)}-\hat{y}^{(i)})^2\\[2ex]&\hat{y}^{(i)}=h(x^{(i)})=w_1x^{(i)}_1+\cdots+ w_{13}x^{(i)}_{13}+b\end{aligned}\tag{2} J(W,b)=2m1i=1∑m(y(i)−y^(i))2y^(i)=h(x(i))=w1x1(i)+