【从线性回归到BP神经网络】第二部分：线性回归

最新推荐文章于 2024-06-22 13:42:56 发布

tanghonghanhaoli

最新推荐文章于 2024-06-22 13:42:56 发布

阅读量586

点赞数

分类专栏： Machine Learning 文章标签：机器学习

本文链接：https://blog.csdn.net/tanghonghanhaoli/article/details/105631884

版权

本文详细介绍了线性回归的基本概念，包括代价函数、梯度下降法及其在线性回归中的应用。通过矩阵形式展示了如何处理多个样本，并探讨了线性回归的闭式解。此外，还从概率角度解释了为何选择均方误差作为代价函数。

摘要由CSDN通过智能技术生成

文章目录

本文主要参考文献如下：
1、吴恩达CS229课程讲义。
2、（美）S.Chatterjee等，《例解回归分析》（第2章），机械工业出版社。
3、周志华. 《机器学习》3.2.清华大学出版社。
4、（美）P.Harrington，《机器学习实战》人民邮电出版社。

1、代价函数

我们先考虑只有单个数据对的情况，即 ${\bf x}=[1,x_1,x_2,\ldots,x_n]$ 为输入的属性向量，其中 $n$ 为属性的个数， $y$ 为与 $\bf x$ 对应的输出函数值。我们希望能够用 $\bf x$ 的线性函数来预测 $y$ 的值，即
$\tag{1} \begin{aligned} h_{\theta}({\bf x})&=\theta_0+\theta_1x_1+\theta_2x_2+\ldots+\theta_nx_n\\ &=\sum_{j=1}^{n}\theta_jx_j\\ &={\bm \theta}^{\rm T}{\bf x}, \end{aligned}$ 这里， ${\bm \theta}=[\theta_0,\theta_1,\ldots,\theta_n]^{\rm T}$ 为参数向量。显然，我们希望通过选择合适的参数 ${\bm \theta}$ ，使得 $h_{\bm \theta}({\bf x})$ 能够尽量接近 $y$ 的值。
那么如何来定义“接近”的程度呢？采用的就是cost function（代价函数）。常用的一种cost function的定义，就是均方值
$\tag{2} J(\bm \theta)=\frac{1}{2}[h_{\theta}({\bm \theta})-y]^2$ 我们推广到有 $m$ 个数据对的情况，此时的代价函数为
$\tag{3} J(\bm \theta)=\frac{1}{2m}\sum_{i=1}^{m}[h_{\theta}({ {\bf x}^{(i)}})-y^{(i)}]^2.$

严格来说，根据第一部分，这里的分母的 $m$ 应该为 $m - 1$ 。

2、梯度下降法

多元函数 $J(\bm \theta)$ 的值会随着 $\bm \theta$ 的改变而改变。我们希望能够尽快找到使 $J(\theta)$ 最小的 $\bm \theta$ ，那么 $\bm \theta$ 应该往哪个方向变化， $J(\bm \theta)$ 的值能够下降得更快呢？
首先我们看”方向”这个词的含义。这里的方向，其实就是指每个参数， $\theta_j$ ，第一是变大还是变小（正 or 负），第二是变得快还是慢。以下图一维的情况来看，显然A点切线斜率比B点的大，因此下降得更快，而C点 $\theta_1$ 得值应该增大，而非减小。想象下如果换成多维情况，其实就是看每个参数应该变大还是变小，应该以多快速率变化（在学习率 $\alpha$ 一定的情况下）。如果想象从山顶往山下走（两个参数的情况），显然两个参数的正负和变化快慢，决定了下山路线的方向。
梯度下降法实际上就是选择下降最快方向的方法，即
$\tag{4} \theta_j:=\theta_j-\alpha\frac{\partial J(\bm \theta)}{\partial \theta_j}\quad j=0,1,\ldots,n.$
在这里插入图片描述
注意梯度下降法的特点：