机器学习--第二周

最新推荐文章于 2022-03-24 18:04:33 发布

是个小尾巴呀

最新推荐文章于 2022-03-24 18:04:33 发布

阅读量4.4k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_40617397/article/details/106584329

版权

四、多变量线性回归

4.1 梯度下降法实践–学习率

在这里插入图片描述

4.2 正规方程

4.2.1 正规方程表达式：

在这里插入图片描述

summary

总结一下，只要特征变量的数目并不大，标准方程是一个很好的计算参数的替代方法。具体地说，只要特征变量数量小于一万，我通常使用标准方程法，而不使用梯度下降法。

随着我们要讲的学习算法越来越复杂，例如，当我们讲到分类算法，像逻辑回归算法，我们会看到，实际上对于那些算法，并不能使用标准方程法。对于那些更复杂的学习算法，我们将不得不仍然使用梯度下降法。因此，梯度下降法是一个非常有用的算法，可以用在有大量特征变量的线性回归问题。或者我们以后在课程中，会讲到的一些其他的算法，因为标准方程法不适合或者不能用在它们上。但对于这个特定的线性回归模型，标准方程法是一个比梯度下降法更快的替代算法。所以，根据具体的问题，以及你的特征变量的数量，这两种算法都是值得学习的。

七、Logistic回归

逻辑回归函数就是sigmoid激活函数。使得值域在0到1之间。
在这里插入图片描述

7.1 非凸函数和凸函数

非凸函数就是有很多局部最小值。凸函数有全局最小值。
在这里插入图片描述

7.2高级优化

使用一些更高级、更复杂的方法来计算代价函数J和它的偏导数。比如：轭梯度法 BFGS (变尺度法) 和L-BFGS (限制变尺度法) 。这三种算法的具体细节超出了本门课程的范畴。实际上你最后通常会花费很多天，或几周时间研究这些算法，你可以专门学一门课来提高数值计算能力，不过让我来告诉你他们的一些特性：

这三种算法有许多优点：
一个是使用这其中任何一个算法，你通常不需要手动选择学习率，所以对于这些算法的一种思路是，给出计算导数项和代价函数的方法，你可以认为算法有一个智能的内部循环，而且，事实上，他们确实有一个智能的内部循环，称为线性搜索(line search)算法，它可以自动尝试不同的学习速率，并自动选择一个好的学习速率，因此它甚至可以为每次迭代选择不同的学习速率，那么你就不需要自己选择。这些算法实际上在做更复杂的事情，不仅仅是选择一个好的学习速率，所以它们往往最终比梯度下降收敛得快多了，不过关于它们到底做什么的详细讨论，已经超过了本门课程的范围。
实际上完全有可能成功使用这些算法，并应用于许多不同的学习问题，而不需要真正理解这些算法的内环间在做什么，如果说这些算法有缺点的话，那么我想说主要缺点是它们比梯度下降法复杂多了，特别是你最好不要使用 L-BGFS、BFGS这些算法，除非你是数值计算方面的专家。
学习到的主要内容：
写一个函数，它能返回代价函数值、梯度值，因此要把这个应用到逻辑回归，或者甚至线性回归中，你也可以把这些优化算法用于线性回归，你需要做的就是输入合适的代码来计算这里的这些东西。

当我有一个很大的机器学习问题时，我会选择这些高级算法，而不是梯度下降。有了这些概念，你就应该能将逻辑回归和线性回归应用于更大的问题中，这就是高级优化的概念。

八、正则化

8.1 过拟合问题

在这里插入图片描述
图一：欠拟合，高偏差
图二：just right
图三: 过拟合，高方差

过拟合：
如果我们有很多特征值，假设模型也许能够很好的拟合训练集的数据（代价函数等于0），但是不能很好的泛化到新样本。
泛化:是指一个假设模型应用到新样本的能力。
针对过拟合问题如何处理？
1.丢弃一些不能帮助我们正确预测的特征。可以是手工选择保留哪些特征，或者使用一些模型选择的算法来帮忙（例如PCA）
2.正则化。保留所有的特征，但是减少参数的大小（magnitude）。

7.2 代价函数

正则化的基本方法：
对于回归问题中的模型: 在这里插入图片描述
正式那些高次项（三次方、四次方）导致了过拟合的产生，如果能让这些高次项的系数接近于0，就可以很好的拟合了。需要做的是在一定程度上减小这些参数的值。
修改后的代价函数：
我们决定减小后两个参数的大小，要做的就是修改代价函数，在这两个参数设置一点惩罚。在尝试最小化代价时也需要将这个惩罚纳入其中，并最终选择较小一些的参数。

在这里插入图片描述

通过这样的代价函数选择出的参数，对预测结果的影响就比之前小很多。

假如我们有非常多的特征，我们并不知道其中哪些特征我们要惩罚，我们将对所有的特征进行惩罚，并且让代价函数最优化的软件来选择这些惩罚的程度。这样的结果是得到了一个较为简单的能防止过拟合问题的假设：

最低0.47元/天解锁文章

是个小尾巴呀

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习--第二周

四、多变量线性回归4.1 梯度下降法实践–学习率4.2 正规方程4.2.1 正规方程表达式：summary总结一下，只要特征变量的数目并不大，标准方程是一个很好的计算参数的替代方法。具体地说，只要特征变量数量小于一万，我通常使用标准方程法，而不使用梯度下降法。随着我们要讲的学习算法越来越复杂，例如，当我们讲到分类算法，像逻辑回归算法，我们会看到，实际上对于那些算法，并不能使用标准方程法。对于那些更复杂的学习算法，我们将不得不仍然使用梯度下降法。因此，梯度下降法是一个非常有用的算法，可以用
复制链接

扫一扫