机器学习笔记（3）多变量线性回归-CSDN博客

模型介绍

多变量线性回归类似于单变量线性回归，只是需要考虑的影响特征数目变多，通过对多个变量x_i进行分析，进而预测结果y。类似于单变量线性回归的假设函数，给出多变量线性回归的假设函数：
\[ h_θ(x)=θ_0+θ_1x_1+θ_2x_2+…+θ_nx_n \]
利用线性代数的知识，可以将系数θ定义为一个向量：
\[ θ=\left[ \begin{matrix} θ_0 \\ θ_1 \\ θ_2 \\ \vdots \\ θ_n \end{matrix} \right] \]

变量x定义为：
\[ x=\left[ \begin{matrix} x_0 \\ x_1 \\ x_2 \\ \vdots \\ x_n \end{matrix} \right] \]
则假设函数可以写成：
\[ h_θ=θ^Tx \]

代价函数

类似于单变量线性回归，我们有n个特征值，我们写出代价函数：
\[ J(θ)=\frac{1}{2m}\sum_{i=1}^{m} {(h_θ(x^{(i)})-y^{(i)})^2} \]

梯度下降

\[ θ_j:=θ_j-α\frac{∂}{∂θ_j}J(θ) \]
\[ (for (j=0,……n)) \]
解开之后的规律为：
\[ θ_j:=θ_j-α\frac{1}{m}\sum_{i=1}^{m} {(h_θ(x^{(i)})-y^{(i)})x_j^{(i)}} \]

当然对于某些情况，例如对于一个多变量的模型，其各个变量的取值范围差异很大，就会导致在执行梯度下降的过程中，速度缓慢且可能产生波动。所以引出一个技巧：

特征缩放

对于上述的情况，希望能将各变量的取值范围保持在\(-1\leq x\leq 1\)类似的一个范围里，并且使得各变量的取值范围一致。

利用均值归一化，可以得到一个比较理想的结果：
\[ x_i=\frac{x_i-μ_i}{s_i} \]
其中μ为x训练集的平均数，s为范围的标准差。

学习率α的选择

可以通过描绘以迭代层数为x轴的J(θ)图像来观察梯度下降算法是否合理运行。以此为依据，调整合理的学习率α。

正规方程

梯度下降算法中的偏导数，可能不一定好计算，在之前的单变量线性回归中，分析过当\(\frac{∂}{∂θ_j}J(θ)=0\)时算法到达边界，根据这个条件，给出下列算法：
对于一组训练集：

x₀	x₁	x₂	x₃	x₄	y
1	2104	5	1	45	460
1	1416	3	2	40	232
1	1534	3	2	30	315
1	852	2	1	36	178

可以分别写成矩阵：
\[ X=\left[ \begin{matrix} 1 & 2104 & 5 & 1 & 45 \\ 1 & 1416 & 3 & 2 & 40 \\ 1 & 1534 & 3 & 2 & 30 \\ 1 & 852 & 2 & 1 & 36 \end{matrix} \right] \]
和向量：
\[ y=\left[ \begin{matrix} 460 \\ 232 \\ 315 \\ 178 \end{matrix} \right] \]

则θ公式为：
\[ θ=(X^TX)^{-1}X^Ty \]