Andrew Ng机器学习笔记（一）

最新推荐文章于 2022-08-12 23:19:40 发布

SseaMount

最新推荐文章于 2022-08-12 23:19:40 发布

阅读量405

点赞数

分类专栏：机器学习文章标签： machine learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Hyaloidz/article/details/80139725

版权

机器学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

机器学习简介

一、简介

我们的生活与机器学习息息相关，机器学习是使电脑学习的一种科学，而不借助于明确的程序，机器学习中的神经网络算法（模拟人类的直观思维）在AI中应用广泛。Machine learning发源于人工智能领域，与工业界和基础科学界联系紧密。并且，随着网络和自动化技术的快速发展，机器学习越来越普遍。

二、定义

Arthur Samuel：在进行特定编程的情况下，给予计算机学习能力的领域。

Tom Mitchell：一个程序被认为能从E中学习，解决T，达到性能度量值P，当且仅当没有了经验E之后，经过P的评判，程序在处理T时的性能有所提升。

三、machine learning algorithm

· supervised learning/regression learning：直接给出一个算法，该算法可以处理无穷多个特征。

· unsupervised learning/聚类算法 ：自动将数据分类，未提前告知算法

· Linear regression with one variable：从一个输入值预测一个输出值。输入/输出的对应关系就是一个线性函数。

假设函数为：hθ(x)=θ0+θ1x，其中θ0 和θ1为模型参数。

CostFunction：平方误差函数。

m是样本容量，（再乘的1/2是为了方便之后的计算）

目标：找到使得J(θ0 ，θ1)最小值的时候，θ0 和θ1的值。

方法：gradient descent：

梯度下降法的算法可以有代数法和矩阵法（也称向量法）两种表示。矩阵形式的损失函数系数为1/2，代数形式的损失函数系数为1。

这两个公式的区别是一个是一元的，而另一个是多元的。

开始给定一个（θ0 ，θ1）初始值，通过不断的改变θ0 ，θ1的值，每次改都使得 J 减少，最终J 减少到最小，即按照一定的学习速率，不断重复更新θ0 ，θ1 直到 J 局部收敛到最小值。如果速率太小，则下降的速度比较慢。如果速率过大，会无法收敛到最小值。梯度下降的过程中，导数的值会不断变小，下降的幅度也会自然的减少。所有没有必要在下降的过程中调整学习速率。即使学习效率不变，在接近最优解的时候，梯度也会很缓，下降也越来越慢，所以依旧可以收敛。在梯度算法中，变量的更新要同步。*缺点：靠近极小值时收敛速度减慢。直线搜索时可能会产生一些问题。可能会“之字形”地下降。*

batchgradient descent：

*处理大规模的数据时，梯度下降法的运算效率非常低。

因为梯度下降法在每次迭代过程中都需要计算训练集的预测情况，所以当数据量非常大时需要耗费较长的时间。

当你处理大规模的数据时，可以利用随机梯度下降法来提高计算效率。

Stochastic gradient descent：

该算法与上述梯度下降法的不同之处在于它对每个随机训练样本都执行系数更新过程，而不是在每批样本运算完后才执行系数更新过程。

随机梯度下降法的第一个步骤要求训练集的样本是随机排序的，这是为了打乱系数的更新过程。因为我们将在每次训练实例结束后更新系数值，所以系数值和成本函数值将会出现随机跳跃的情况。通过打乱系数更新过程的顺序，我们可以利用这个随机游走的性质来避免模型不收敛的问题。

除了成本函数的计算方式不一致外，随机梯度下降法的系数更新过程和上述的梯度下降法一模一样。

对于大规模数据来说，随机梯度下降法的收敛速度明显高于其他算法，通常情况下你只需要一个小的迭代次数就能得到一个相对较优的拟合参数。*

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。