机器学习第一周

引言

机器学习定义

来自 1998 年 Tom Mitchell 的定义:一个程序被认为能从经验E中学习,解决任务T,达到性能度量值P,当且仅当,有了经验E后,经过P评判,程序在处理T时的性能有所提升。

吴恩达视频中提到的西洋下棋程序中:
T : 下棋
P:赢得比赛的概率
E:上万次的练习获得的经验

=====================
What is Machine Learning?

Two definitions of Machine Learning are offered. Arthur Samuel described it as: “the field of study that gives computers the ability to learn without being explicitly programmed.” This is an older, informal definition.

Tom Mitchell provides a more modern definition: “A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.”

Example: playing checkers.

E = the experience of playing many games of checkers

T = the task of playing checkers.

P = the probability that the program will win the next game.

In general, any machine learning problem can be assigned to one of two broad classifications:

Supervised learning and Unsupervised learning.

监督学习

监督学习:其基本思想是,我们给了一个数据集(就是我们平时说的训练集),并且知道我们数据集中的每个样本都有相应的“正确答案”,再根据这些样本对未来的输入数据作出预测.
监督学习问题可以分为“回归”和“分类”问题。

  • 在回归问题中,我们试图预测连续输出中的结果,这意味着我们试图将输入变量映射到某个连续函数。
  • 在分类问题中,我们试图预测离散输出的结果。 换句话说,我们试图将输入变量映射到离散类别。

无监督学习

无监督学习:允许我们利用很少的或者根本不知道我们的结果应该是什么样子,仅仅从数据中推导出结构。一句话,不基于预测结果的反馈。
常用的无监督学习算法有聚类。

单变量线性回归

线性回归模型

这里写图片描述
用语言描述就是:用 Training Set 喂给 Learning Algorithm 去训练,最后输出到一个假设 h 也可以认为表示一个函数,输入是房屋尺寸大小,就像你朋友想出售的房屋,因此 h 根据输入的值 x 来得出 y 值,y 值对应房子的价格 因此,h 是一个从 x 到 y 的函数映射。
对于单变量的线性回归模型而言,因为只含有一个特征/输入变量,因此输出函数 h(x) 可以表示为:h(x) = θ0 + θ1x

损失函数

损失函数:也叫成本函数,也叫代价函数,但我喜欢叫损失函数,它是用来衡量假设函数 h(x) 的准确性,换句话,就是衡量 h(x) 与实际的y 的平均误差。对于单变量线性回归模型而言,损失函数用如下公式表示:
这里写图片描述
其中 hθ(xi) 是 xi 根据假设函数计算的预测值,yi是样本的实际值。m是样本的个数,损失函数亦被称之为平均均方误差,除以2是为了方便后面梯度下降算法的计算。
我们建模的目的就是要让 J(θ0, θ1) 最小,然后找到对应的 θ0 跟 θ1,进而得到 h(x) 。

梯度下降

梯度下降是一个用来求函数最小值的算法,我们将使用梯度下降算法来求出损失函数 J(θ0, θ1) 的最小值。
梯度下降背后的思想是:开始时我们随机选择一个参数 (θ0, …θn) 的组合,计算损失函数,然后我们寻找下一个能让损失函数值下降最多的参数组合。我们持续这么做直到到到一个局部最小值(local minimum),因为我们并没有尝试完所有的参数组合,所以不能确定我们得到的局部最小值是否便是全局最小值(global minimum),选择不同的初始参数组合,可能会找到不同的局部最小值。
梯度下载算法用如下公式表示:
这里写图片描述
这里的 j = 0, 1;α 表示学习率,为正,表示梯度下降程度的步子有多大;损失函数的偏导表示梯度下降的方向。
在梯度下降迭代过程当中,我们需要更新 θ0 和 θ1,需要特别注意的是,我们需要同时更新 θ0 和 θ1

梯度下降算法过程如下图:
这里写图片描述
反复按照上面的公式对 θ0 和 θ1 进行迭代,最终使得 θj 收敛于 θj

  • 我们应该调整参数 α 以确保梯度下降算法在合理的时间内收敛。 未能收敛或获得最小值的时间太多意味着我们的步长 α 是错误的。
  • 梯度下降为什么能用固定的 α 收敛?
    在梯度下降法中,当我们接近局部最低点时,梯度下降法会自动采取更小的幅度,这是因为当我们接近局部最低点时,很显然在局部最低时导数等于零,所以当我们接近局部最低时,导数值会自动变得越来越小,所以梯度下降将自动采取较小的幅度,这就是梯度下降的做法。所以实际上没有必要再另外减小 α。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
对于"吴恩达机器学习笔记2022"的问题,我没有在引用的内容中找到具体的相关信息。根据我所了解到的是,吴恩达是一位著名的机器学习专家,他在机器学习领域有很高的声誉,并且他的机器学习课程非常受欢迎。他的机器学习课程涵盖了从基础概念到实践应用的广泛内容,可以帮助学生建立起对机器学习的扎实理解并掌握相关的技能。如果您对具体的吴恩达机器学习笔记2022有进一步的问题, 请提供更多的细节,我将尽力为您解答。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [【机器学习 吴恩达】2022课程笔记(持续更新)](https://blog.csdn.net/weixin_45837404/article/details/128709041)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *3* [2022吴恩达机器学习课程学习笔记(第一课第一周)](https://blog.csdn.net/Yang0114_/article/details/127400605)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值