利用梯度下降的方式求线性回归中参数的一些经验总结

最新推荐文章于 2025-03-24 21:04:48 发布

dawningblue

最新推荐文章于 2025-03-24 21:04:48 发布

阅读量1.2k

点赞数

分类专栏：机器学习文章标签：机器学习线性回归线性代数 matlab

本文链接：https://blog.csdn.net/dawningblue/article/details/77719207

版权

机器学习专栏收录该内容

13 篇文章

订阅专栏

本文作者分享了在Coursera的机器学习课程中，通过MATLAB实现线性回归梯度下降时的经验。文章强调了向量计算的重要性，解释了如何在MATLAB中利用向量和矩阵运算加速计算，并通过实例展示了如何将梯度下降的更新规则转化为向量表达式，从而一次性更新所有参数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这个是coursera里的machine learning课程的作业，在用matlab实现的过程中我总结了一些经验
1. 梯度下降也分成两个部分，一个是cost function的实现，一个是 $\theta$ 的实现
2. 这里要尽量采用向量的计算方法，注意向量的计算方法不是矩阵的计算方法，总结一下向量的计算技巧，什么情况下可以一气计算，什么情况下不行，只能循环计算。微批量处理
matlab的优势就在于他可以像数学计算那样，把批量的数据作为单位一气进行运算，而不是像传统的程序一样只能一个数字一个数字的算，最典型的就是向量和矩阵，在matlab里面是可以以矩阵为单位或者以向量为单位进行计算的。如果你是以向量作为单位来计算的，那么在同一个数学等式里面，你要保证参与运算的数据都是纬度一样的向量。这里多说一句，在《线性代数》同济第五版里面，并没有专门介绍向量的运算法则，只说道一个向量的内积。我觉得可以这样理解，因为向量可以看成一个特殊的矩阵（n行1列的矩阵），那么向量的运算很多都是和矩阵以一样的，其实所谓的内积也是矩阵乘法的一种特殊形式。
3. $\theta_{j} := \theta_{j} - \alpha {\frac {1}{m}}\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)}){x_j}^{(i)}$ 这个式子能不能用向量的方式来进行求解，因为这个式子比较复杂，凭空想难度还是比较高的，因此我们用一个小点数将其具体化来观察它的特点（其实Ng就是利用这种方法来讲课的，一个变量的线性回归）。
我们假设m=3，n=2，那么hypothesis的形式为 $h_{\theta}(x) = {\theta}_0 + {\theta}_1x_1+{\theta}_2x_2$ 。我们要确定的参数为 $\theta =\begin{pmatrix} {\theta}_0\\ {\theta}_1\\ {\theta}_2\\ \end{pmatrix}$ 。而系数矩阵 $X$ 为
$\begin{pmatrix} 1 & {x_1}^{(1)} & {x_2}^{(1)}\\ 1 & {x_1}^{(2)} & {x_2}^{(2)}\\ 1 & {x_1}^{(3)} & {x_2}^{(3)}\\ \end{pmatrix}$ 。
我们先令j=0，看一下 $\theta$ 的迭代式子有什么特点。 $\theta_{0} := \theta_{0} - \alpha {\frac {1}{3}}\sum_{i=1}^{3}(h_{\theta}(x^{(i)})-y^{(i)}){x_j}^{(i)}$ 。我们把这个求和公式展开，于是 $\theta_{0} := \theta_{0} - \alpha {\frac {1}{3}}[(h_{\theta}(x^{(1)})-y^{(1)}){x_0}^{(1)}+(h_{\theta}(x^{(2)})-y^{(2)}){x_0}^{(2)}+(h_{\theta}(x^{(3)})-y^{(3)}){x_0}^{(3)}]$ ，你可以看到方框号里的这一部分，正好就是向量 ${\theta}^Tx-Y$ 与向量 $\begin{pmatrix} {x_0}^{(1)}\\ {x_0}^{(2)}\\ {x_0}^{(3)}\\ \end{pmatrix}$ 的内积。而这个向量 $\begin{pmatrix} {x_0}^{(1)}\\ {x_0}^{(2)}\\ {x_0}^{(3)}\\ \end{pmatrix}$ 正好就是系数矩阵 $X$ 的第一列，我们可以在matlab里用X(:,1)来表示X矩阵的第一列，对于 $\theta_0$ 对应的X矩阵的第一列，也就是 $0+1$ ，那么我们可以推出来针对每一个 $\theta_j$ 其取值的式子用向量的形式表示为 $\theta_j = \theta_j - \alpha {\frac {1}{m}}[{\theta}^Tx-Y,X(:,j+1)]$ 。用代码的形式表示就是

predictions = X * theta ;
Err = predictions - y ;
theta0 = theta(1) - alpha / m * dot(Err , X(:,1));
theta1 = theta(2) - alpha / m * dot(Err , X(:,2));
theta = [theta0 ; theta1];

这个仍然是一个一个的计算向量 $\theta$ 的分量，那我能不能一个式子就将 $\theta$ 这个向量算出呢？我们还是用简单具体的例子来观察其中的规律：
$\theta_0 = \theta_0 - \alpha{\frac {1}{3}}[Err,X(:,1)]$
$\theta_1 = \theta_1 - \alpha{\frac {1}{3}}[Err,X(:,2)]$
$\theta_2 = \theta_2 - \alpha{\frac {1}{3}}[Err,X(:,3)]$
把这三个式子合成一个就是 $\begin{pmatrix} {\theta}_0\\ {\theta}_1\\ {\theta}_2\\ \end{pmatrix} = \begin{pmatrix} {\theta}_0\\ {\theta}_1\\ {\theta}_2\\ \end{pmatrix} - \alpha {\frac {1}{3}}\begin{bmatrix} Err \cdot X(:,1)\\ Err \cdot X(:,2)\\ Err \cdot X(:,3)\\ \end{bmatrix}$ ,如果方括号括住的部分能够用合适的方式（比如说以向量运算或者矩阵运算的方式）一次性的表现出来，那么这个问题就解决了。我们仔细观察一下这一部分，把这个地方细化一下，我令 $Err =\begin{pmatrix} e_0\\ e_1\\ e_2\\ \end{pmatrix}$ ，在 $\begin{bmatrix} Err \cdot X(:,1)\\ Err \cdot X(:,2)\\ Err \cdot X(:,3)\\ \end{bmatrix}$ 中的每一个分量都是 $Err$ 这个向量和系数矩阵 $X = \begin{pmatrix} 1 & {x_1}^{(1)} & {x_2}^{(1)}\\ 1 & {x_1}^{(2)} & {x_2}^{(2)}\\ 1 & {x_1}^{(3)} & {x_2}^{(3)}\\ \end{pmatrix}$ 中的一列的进行内积的结果，可以观察出来， $\begin{bmatrix} Err \cdot X(:,1)\\ Err \cdot X(:,2)\\ Err \cdot X(:,3)\\ \end{bmatrix}$ 其实就是矩阵 $X^T$ 与向量 $Err$ 的积（这个矩阵乘法），即 $X^T \cdot Err$ ，于是将 $\theta$ 向量一次性求出来的式子为

θ = θ - α 1 m * (X T \cdot E r r)

$\theta = \theta - \alpha{\frac {1}{m}}\ast(X^T \cdot Err)$
于是这个用matlab代码表示为：

    predictions = X * theta ;
    Err = predictions - y ;
    theta = theta - alpha / m * (X' * Err);