【深度之眼吴恩达机器学习第四期】笔记（一）

最新推荐文章于 2024-07-18 23:59:01 发布

树天先森

最新推荐文章于 2024-07-18 23:59:01 发布

阅读量192

点赞数

分类专栏：吴恩达机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_40923177/article/details/103864532

版权

吴恩达机器学习专栏收录该内容

12 篇文章 3 订阅

订阅专栏

第一章：什么是机器学习

机器学习主要分为监督学习（我们教计算机如何学习）和无监督学习（让计算机自己学习）。强化学习和推荐系统等也是机器学习的一部分。
监督学习：有数据和标签，通过对数据和标签的学习，希望获得一个可以预测标签的模型。比如：知道房子信息，预测房价；根据肿瘤大小预测肿瘤是否为良性等。监督学习还分为分类和回归两种，简单地说就是：分类是离散的（肿瘤是良性或肿瘤不是良性），回归是连续的（理论上房价可以属于[0,正无穷]）。
无监督学习：没有标签，但是数据有其内在的特性，计算机根据这些特性把它们分成不同的类别。比如每天都有很多的新闻，计算机通过算法把它们分为不同的类别：诺贝尔奖新闻、球赛新闻等。无监督学习和有监督学习的最大区别在于你事先不知道会有什么类别。

第二章：线性回归模型

线性回归模型是监督学习中的一种，线性表示我们可以学习一个一次方程来进行预测（简单说就是一条直线），回归代表预测结果是连续的。
我们会有训练数据集，一般其中分为数据（比如房子的大小，一般用X来表示）和标签（比如房子的价格，一般用Y来表示）。
训练数据集→学习算法→输出一个函数（一般用h表示）→对于这个函数，输入数据（房子的大小），就能得到标签（房子的价格）。
线性回归模型的h函数：
在这里插入图片描述
不同的参数会得到不同的直线，我们想要的就是一条最符合数据的直线（其实就是最小二乘线性拟合）：

其中m是数据的个数。2分之一是为了方便求导（损失函数的最小值在导数为零的点），m分之一是为了求平均。
固定一个参数的损失函数变化曲线：
在这里插入图片描述
不固定参数的损失函数变化曲面：

梯度下降算法：

注意事项 ：
1.步长不能太长，否则会震荡；
2.参数要同时更新；
3.获得的最小值与最初位置有关

第三章：矩阵运算

基本的矩阵运算：加减、乘法、数乘、取元素等。
一些矩阵的性质：不满足交换律，但是满足结合律，有单位元。
一些关于矩阵的逆和矩阵转置的信息。

第四章：多变量线性回归

多变量线性回归的函数h、参数和损失函数如下图：
在这里插入图片描述
多变量线性回归的梯度下降：

梯度下降的技巧：
两个变量的定义域相差太大/太小时，最好转化为相差不大的定义域（太大的→[-3,3]，太小的→[-1/3,1/3]），否则得到的损失函数等高图就会是椭圆形的（这里的长宽比例大约是2000：5），而且梯度下降算法会来回震荡，要花费更长时间才最终收敛。
在这里插入图片描述
如果把它们都归一化的话，等高图就会更圆一些，收敛的速度也更快。

我们有时候还会使用均值归一化，就是让定义域大概在[-0.5,0.5]间，均值大约在0附近。通过以下式子来缩放：
如何确定迭代次数？
1.画出损失函数关于迭代次数而变化的图，然后观察。在这里大概迭代300到400次就差不多了。
2.还有种方法是：两次迭代的损失函数之差小于某个ε就可以了，但是如何选择ε也是一个问题。
在这里插入图片描述
如何确定梯度下降算法运行良好？
如果画出的图像类似于上面的图像，那就表示运行良好。相反，如果画出的图像和下图相似，那么要不就是算法写错了，要不就是步长α太大了，越过了最小点。

步长α取得太小也不行，这样虽然一定可以到达最小点，但是迭代的次数会增多。