吴恩达机器学习入门视频笔记（一）

最新推荐文章于 2024-07-24 14:31:04 发布

DebugMyself

最新推荐文章于 2024-07-24 14:31:04 发布

阅读量352

点赞数

分类专栏：吴恩达视频笔记文章标签：机器学习算法人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/DebugMyself/article/details/107837980

版权

吴恩达视频笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

翻了翻笔记本，发现以前看吴恩达机器学习入门视频的笔记，拿来与大家分享一下，也当作自己的一次复习。笔记内容有跳跃性，也很琐碎，不具有系统性，如果大家要系统性学习可以去对应网站或者b站上自行搜索。

首先，机器学习分为有监督学习和无监督学习。有监督学习中有数据以及标签，学习到一个可以将数据映射到标签的函数，标签可以有很多形式。无监督学习的数据是没有任何标签的。

有监督学习可以根据数据是连续或者离散分为回归（连续标签）和分类（离散标签），典型的无监督学习有聚类和降维等。

梯度下降： $\Theta = \Theta - \alpha * \delta f / \delta \Theta$

梯度下降是变参数，参数此时为自变量，也就是通过改变自变量的值来寻找局部最小值。虽然学习率α一定，但每次自变量变动的值不是一定的，因为每走一步偏导都会变化一次。

θ再更新时需要同步更新，即一次将所有θ需要变动的量都算出来，然后同时更新所有θ，不能算一个更新一个，因为这样的话再计算后一个θ更新值时会用到已经更新过的上一个θ的值。

如果α（步长）过大可能会造成梯度下降得到相反的效果。

特征缩放（数据归一化）可以使梯度下降算法收敛更快（参考视频内容，老师讲的很好）。特征缩放同样适用于logistic回归，使其梯度下降收敛更快。

除了普通的批量梯度下降法（BGD），随机梯度下降法（SGD），还有共轭梯度法（CG），BFGS法，L-BFGS法等等。CG，BFGS法，L-BFGS法等不需要指定步长参数α，并且收敛速度快于BGD算法。

如果特征过多（即x数量过多），可能会造成没有足够的数据去训练出一个很好的模型。函数过大，变量太多，而数据不够，不能很好的约束，造成模型再训练集上表现很好，再测试集上表现不佳的状况。这种情况我们称之为过拟合（泛化能力差）。

解决过拟合的方法：

① 减少特征数量（模型选择算法）

②正则化（减小参数θj的量级）

因为无法实现得知那个参数应该被正则化，因此一般会再惩罚函数中加入惩罚项（正则化项）来缩小所有参数的量级。常数项θ0也可以加入惩罚项，不加只是约定俗成，加了也没什么问题。

惩罚项中有参数λ，此参数是为了调整损失函数和正则化项的权重，若λ过大，则θ会被训练得过小，接近于0，此时函数，差不多为一条直线，导致训练效果很差。

内容不具有系统性，主要是自己再复习一下，大家想系统性学习的还是去看视频吧。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
吴恩达机器学习入门视频笔记（一）

翻了翻笔记本，发现以前看吴恩达机器学习入门视频的笔记，拿来与大家分享一下，也当作自己的一次复习。笔记内容有跳跃性，也很琐碎，不具有系统性，如果大家要系统性学习可以去对应网站或者b站上自行搜索。首先，机器学习分为有监督学习和无监督学习。有监督学习中有数据以及标签，学习到一个可以将数据映射到标签的函数，标签可以有很多形式。无监督学习的数据是没有任何标签的。有监督学习可以根据数据是连续或者离散分为回归（连续标签）和分类（离散标签），典型的无监督学习有聚类和降维等。梯度下降：梯度下降是变参数，参数此
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。