Coursera吴恩达老师Machine Learning笔记：线性回归

最新推荐文章于 2022-07-03 10:19:16 发布

tenger_lee

最新推荐文章于 2022-07-03 10:19:16 发布

阅读量207

点赞数

分类专栏：机器学习文章标签：机器学习线性回归 Coursera

本文链接：https://blog.csdn.net/tenger_lee/article/details/102869339

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

基本概念

线性回归，顾名思义就是用线性函数去拟合观测数据。以 $X$ 表示样本数据的特征， $y$ 表示样本数据的目标值， $m$ 表示观测数据的个数， $n$ 表示观测数据特征数，则 $X$ 是一个 $m * n$ 的矩阵， $y$ 是 $m$ 维列向量。把 $y$ 表示成 $X$ 的线性组合，即是线性回归。

模型

我们想用 $X$ 的线性组合来表示 $y$ ，那么问题来了，无论参数选的多好， $y$ 通常不可能严格等于 $X$ 的线性组合，怎么办呢？自然是让他们越接近越好。
线性回归模型 $h_\theta=X*\theta$
参数 $\theta$ 是一个列向量。问题归结为，如何选参数 $\theta$ 使 $h_\theta$ 与 $y$ 最接近。一个最直观的评价“远近”的方式就是欧式距离，自然想到用 $J_\theta=\frac{1}{2m}(h_\theta-y)^T*(h_\theta-y)$ 来评价回归结果 $h_\theta$ 与目标值 $y$ 之间的差异。 $J_\theta$ 身份很高，意义重大，所有它有好多名字，代价函数（Cost function）、损失函数（Loss function）等等，whatever，它就是回归结果与目标值之间的一种距离度量，距离越近，模型大概率（还有过拟合情况）越好。

求解

问题最终归结为找使 $J_\theta$ 达到全局最小值的 $\theta$ ，这个问题解法很多，数值计算领域，基于梯度的解法最为常见，如梯度下降法。其思路就是以某个位置 $\theta_0$ 为出发点，沿着其梯度的反方向 $-\frac{\partial J_\theta}{\partial\theta}(\theta_0)$ 是函数值下降最快的方向，具体计算公式为 $\theta=\theta-\alpha X^T*(h_\theta-y)$ 其中， $\alpha$ 是一个步长控制系数，使迭代步长不至于太长以错过最优解，也不至于太短以至迟迟达不到终点，实际操作中 $\alpha$ 可以试几个之后选定一个比较合适的值。另外还有比梯度下降更好的算法，如共轭梯度，本人尚未做深入研究，不再深入，但需知道这些算法可以更快收敛，且不需要操心如何选择 $\alpha$ 。

收敛技巧

实际问题中，数据特征往往不止一个，且特征之间存在数量级差异，这种情况会降低算法收敛速度，可以先将数据进行标准化处理，再用梯度下降算法进行求解。 $\mu_i=\frac{sum(X(:,i))}{m}，s_i=max(X(:,i))-min(X(:,i))$ 分别表示第 $i$ 个特征的均值和“规模”，将该特征标准化为 $X(:,i)=\frac{X(:,i)-\mu_i}{s_i}$ 每个特征都进行标准化之后，能帮助梯度下降更快收敛。

关于线性

线性回归的“线性”很容易误导，让人以为这种方法只能解决线性问题，其实不然。这里的线性，应该理解为 $\theta$ 的线性，而不应该理解成特征 $X$ 的线性。因为总可以增加特征的高阶项，甚至 $s i n$ 项、 $l o g$ 项、指数项等，来拟合非线性问题。比如 $X=(x_1)$ 只有一个特征，而通过观察发现 $X$ 与 $y$ 不是线性关系，有点像抛物线关系，那就可以扩充 $X=(x_1,x_1\cdot x_1)$ ，把问题看成有两个特征，从而更好地拟合数据。

tenger_lee

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Coursera吴恩达老师Machine Learning笔记：线性回归

基本概念线性回归，顾名思义就是用线性函数去拟合观测数据。以XXX表示样本数据的特征，yyy表示样本数据的目标值，mmm表示观测数据的个数，nnn表示观测数据特征数，则XXX是一个m∗nm*nm∗n的矩阵，yyy是mmm维列向量。把yyy表示成XXX的线性组合，即是线性回归。模型我们想用XXX的线性组合来表示yyy，那么问题来了，无论参数选的多好，yyy通常不可能严格等于XXX的线性组合，怎么...
复制链接

扫一扫