吴恩达《机器学习》线性回归模型笔记

最新推荐文章于 2022-07-13 11:22:55 发布

临丶风

最新推荐文章于 2022-07-13 11:22:55 发布

阅读量209

点赞数

分类专栏： # 吴恩达《机器学习》文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_41906254/article/details/103925887

版权

笔记同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

吴恩达《机器学习》

8 篇文章 1 订阅

订阅专栏

吴恩达《机器学习》线性回归模型

线性回归模型
对该算法的认识

线性回归模型（Linear Regression）

基本模型
$\ Hypotheses: y = \Theta _{0}+\Theta _{1}x$
$\ Parameters: \Theta _{0},\Theta _{1}$
$\ Cost Function: J(\Theta _{0},\Theta _{1}) = \frac{1}{2m}\sum_{i=0}^{m}(h(x^{i})-y^{i})^{2}$
Cost Minimize J —— Batch Gradient Descent
$\ \Theta_{j} := \Theta_{j} - \alpha \frac{\partial }{\partial \Theta_{j}} J(\Theta_0,\Theta_1)$
$\ \frac{\partial J}{\partial \Theta_0} = \frac{1}{m}(h(x^i)-y^i)$
$\ \frac{\partial J}{\partial \Theta_1} = \frac{1}{m}(h(x^i)-y^i)x^i$
模型的理解
线性回归模型其实就是一个一元一次方程，有两个参数，该算法要做的事情就是找到拟合数据集最好的参数。
而我们采用的找参数的方法是梯度下降的方法，该方法需要我们确定一个超参数——学习速率α，α取值必须合适，太大会造成无法收敛，甚至发散；而太小导致下降速率太慢，使算法效率低下。
通过这个方法，参数θ就会不断更新，越接近局部最优解（偏导数等于零），偏导数的值就会越小，再乘上一个常数α，经过不断迭代，最终参数θ的值不变，也就得到了线性回归的训练模型了。
而在更新两个参数的时候，必须同步更新，不能先更新一个参数，再用更新后的第一个参数求第二个参数。
在该模型中，代价函数为凸函数(Convex)，梯度下降存在全局最优解，即唯一解。而不像其他的二元方程可能是局部最优解，在不同的起始位置，可能得到不同的局部最优解。这个在高等数学中就是求解极小值和最小值的问题吧。

对算法的思考

代价函数为什么是用平方相加而不是绝对值相加？
我们可以假设两组代价值，分别为（1，2，3）和（1，2，2），如果用绝对值相加，那么这两组数据的代价都为6；而采用平方相加，代价分别为14和9，则可以判断第二组数据的拟合更好，其次用平方相加，也解决了正负号的问题。
代价函数为什么要除以2m？
m是因为必须考虑数据的个数，10个样本和100个样本如果代价相同，他们拟合的程度是不同的。而2是为了数据处理的方便，因为求导会产生2的常数。
算法最优解一定在实际预测中的效果最好吗？
这应该是不一定的，因为机器学习的本质是通过过去产生的数据集，训练出一个模型，进而预测之后给定数据的可能结果。但世界是不断变化的，用过去的经验不一定能很好的预测未来的事情。从哲学上来说，就是要处理好运动和静止的关系吧，运动是绝对的，静止是相对的。所以一个训练模型一定有它的适用条件和使用范围。