吴恩达--机器学习笔记（2022年课程第一周）

兔兔ting

已于 2022-08-15 19:54:35 修改

阅读量1.8k

点赞数 3

文章标签：机器学习人工智能 python

于 2022-08-08 21:20:40 首次发布

本文链接：https://blog.csdn.net/m0_52459066/article/details/126236299

版权

第一周：
机器学习：监督学习、无监督学习
一、无监督学习：给定的事例数据并没有输出标签y,即给定的数据与输出标签y无关；研究的是在给定的数据集中找到一些结论，某种结构或某种模式或有趣的东西；
不是给答案的，是探索结构或模式的。
||
聚类算法、
1、聚类：决定将数据分配给不同的几个集群，决定了有几个什么样的集群或几个什么样的组；获取没有标签的数据，并将它们自动分配到不同的集群中；将相似的点组合在一起
2、异常检测
3、降维：尽可能的缩小数据集，而更少的减少丢失的数据

二、监督学习:给定了一些事例正确的答案（标签），计算机从正确的答案中进行学习；X->Y（有标签）；要求给每个输入提供相对正确的答案
||
预测、分类算法==》
1、预测：从众多有可能的、无限的数据结果中，预测y可能的结果
2、分类：从可能出现的一小部分有限的结果中，得到y可能的结果
*分类–分类模型

*预测–线性回归模型：
~训练集：所有的数据构成的一个表格，每一行对应一组x,y，画在图上代表一个的点。即训练集中的数据构成了这个图中的所有点
然后再根据这些点的分布，利用成本函数构造线性回归模型
我们所求的x和预测得到的y不在该训练集中，因为y本身也不是确切值

~表示方法：
（x,y）：一组数据
m：训练集中的某一行
（x^(i) y^(i)）:训练集中第i行的数据；i是index，不是幂

~通过训练集，得学习法则==》 f
f就是机器通过训练集中的数据，学习得到的function，然后利用这个function就可以预测每个x对应的y了；即x-> f->y^ (y是预测估计得到的，不是准确值，estimate y)
f=wx+b(由参数w,b决定y)

*成本函数(平方误差成本函数)：通过它可使y^ ^{(i)更接近训练集中的每个y}(i)
在这里插入图片描述
通过w,b的改变使得J变得更小，这样得到更适合的w,b，用来构成更准确的f

~针对不同组的w,b可得到不同的f函数（二维），和J函数（三维）
三维的J函数，我们可通过画3D立体图或者等高线来表示
3D立体：
在这里插入图片描述

等高线：
在这里插入图片描述
右侧等高线可以看出蓝黄绿三点的w,b虽然不同，得到的f函数自然也不相同，但是对应的J函数的值却相同，即是同一等高线；

根据3D模型可知，最里面的等高线的中心点即为J的最小值，因此我们要做的就是通过取不同的w,b的值，来无限接近最小值J
||
让计算机自己去自动寻找满足最小值J的w,b 的方法：梯度下降

~梯度下降：适用于任何一种函数，用来求函数mini值
因此函数的参数可以有很多个，最小值也不一定就只有一个（如深度神经网络。。。深度学习）
梯度下降只能求得局部最小解。即当给定一个初始值w,b，只能得到有关该种情况的局部最小值，每种局部最小值之间无法互通
如下图所示函数：（不是平方误差成本函数，该函数似碗装，只有一个mini）
在这里插入图片描述
梯度下降算法，实则为根据下面的公式重复、多次、同步、更新参数w,b，直到逼近J的局部最小值，也就是算法收敛–参数w,b不再随着更新而发生很大的变化

导数：求出斜率，判断梯度下降的方向；＞0，w–；＜0，w++(往中间的mini值走)
在这里插入图片描述
~即使当尔法固定一个值的时候，最后也会找到J函数的局部最小值。因为随着w的更新变化，斜率会变小，即导数会逐渐变小，直到最后w=w不再变化，此时就为局部最小解了

尔法：学习率
用来判断下降多少，当过小时，下降速度会很小，步骤次数会很多，但是最后能找到最小值；
当过大时，可能会离最小值越来越远，最后找不见最小值
在这里插入图片描述
线性回归模型中利用梯度下降实现成本函数的融合==》

注意：这种梯度下降是批量梯度下降，也就是当参数w,b每一次改变时，都要查看对应的训练集中的每组数据（xi,yi）