学习笔记1 #Datawhale X 李宏毅苹果书 AI夏令营#

River's revolution

已于 2024-08-27 22:47:29 修改

阅读量328

点赞数 13

文章标签：学习笔记

于 2024-08-27 22:37:23 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2201_75737671/article/details/141614010

版权

一、重要概念

机器学习：顾名思义，机器具备有学习的能力。具体来讲，机器学习就是让

机器具备找一个函数的能力。

回归：假设机器要预测未来某一个时间的 PM2.5 的数值。机器要找一个函数 f，其输入是可能是种种跟预测 PM2.5 有关的指数，包括今天的 PM2.5 的数值、平均温度、平均的臭氧浓度等等，输出是明天中午的 PM2.5 的数值，找这个函数的任务称为回归（regression）。

分类：人类先准备好一些选项，这些选项称为类别（class），现在要找的函数的输出就是从设定好的选项里面选择一个当作输出，该任务称为分类

结构化学习（structured learning）：机器不只是要做选择题或输出一个数字，而是产生一个有结构的物体，比如让机器画一张图，写一篇文章。这种叫机器产生有结构的东西的问题称为结构化学习。

参数：如果我们引入一个或一些另外的变量来描述自变量与因变量的变化，引入的变量本来并不是当前问题必须研究的变量，我们把这样的变量叫做参变量或参数。

模型：机器学习模型可以从广义上被定义为能够模拟和预测真实世界中的数据关系和模式的数学函数。

特征：描述一个实例的属性或特点

在机器学习中，特征是描述一个实例的属性或特点。特征也可以称为自变量或输入变量。选择合适的特征对于机器学习任务至关重要，因为模型的性能很大程度上取决于特征的选择。

权重：权重实际上是模型学习过程中对输入数据特征的一种数学表达。它们决定了数据如何在模型的各层之间传递，以及如何转换。

偏置（Bias）：偏置是机器学习模型的固定参数，用于调整模型的基准输出水平。

损失函数（也称为代价函数）：是机器学习和深度学习模型中用于量化模型预测与真实值之间差异的函数。

交叉熵：用于衡量预测概率分布与真实概率分布之间的差异。它在信息论中用于评估编码效率，在机器学习中作为损失函数来优化模型。通过最小化交叉熵，我们可以让模型的预测分布尽可能接近真实的分布，从而提高模型的准确性和可靠性。

二、案例学习

机器学习找函数的过程，分成 3 个步骤。第一个步骤是写出一个带有未知参数的函数 f，

其能预测未来观看次数。比如将函数写成

y = b + wx1

b 跟 w 是未知的

第 2 个步骤是定义损失（loss），损失也是一个函数。

如把 2017年1月1日的观看次数，代入这一个函数里面

yˆ = 500 + 1x1

可以判断b = 500，w = 1的时候，这个函数有多棒。x1 代入4800，预测隔天实际上的观看

次数结果为yˆ = 5300，真正的结果是4900，真实的值称为标签（label），它跟真实值不一样。计算差距其实不只一种方式，比如取绝对值：

e1 = |y − yˆ| = 400

计算 y 与 yˆ 之间绝对值的差距，如式(1.6)所示，称为平均绝对误差（Mean Absolute Error，MAE）。

e = |yˆ − y|

如果算 y 与 yˆ 之间平方的差距，如式 (1.7) 所示，则称为均方误差（Mean Squared

Error，MSE）。

所示的等高线图，就是试了不同的参数，计算它的损失，画出来的等高线图称为误差表面（error surface）。

机器学习的第 3 步：解一个最优化的问题。找一个 w 跟 b，把未知的参数找一个数值出来，看代哪一个数值进去可以让损失 L 的值最小，就是要找的 w 跟 b，这个可以让损失最小的 w 跟 b 称为 w ∗ 跟 b ∗ 代表它们是最好的一组w跟b，可以让损失的值最小。梯度下降（gradient descent）是经常会使用优化的方法。（文中案例学习部分多处引用李宏毅老师文章《机器学习基础》Datawhale ）

River's revolution

关注

13
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
学习笔记1 #Datawhale X 李宏毅苹果书 AI夏令营#

其输入是可能是种种跟预测 PM2.5 有关的指数，包括今天的 PM2.5 的数值、平均温度、平均的臭氧浓度等等，输出是明天中午的 PM2.5 的数值，找这个函数的任务称为回归（regression）。参数：如果我们引入一个或一些另外的变量来描述自变量与因变量的变化，引入的变量本来并不是当前问题必须研究的变量，我们把这样的变量叫做参变量或参数。分类：人类先准备好一些选项，这些选项称为类别（class），现在要找的函数的输出就是从设定好的选项里面选择一个当作输出，该任务称为分类。是经常会使用优化的方法。
复制链接

扫一扫

River's revolution CSDN认证博客专家 CSDN认证企业博客

码龄2年

1: 原创

-: 周排名

-: 总排名

328: 访问

: 等级

23: 积分

4: 粉丝

12: 获赞

0: 评论

6: 收藏

私信

关注

热门文章

学习笔记1 #Datawhale X 李宏毅苹果书 AI夏令营# 1

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。