#Datawhale X 李宏毅苹果书 AI夏令营#1.1机器学习基础案例学习

前瞻:

本次打卡是#Datawhale X 李宏毅苹果书 AI夏令营#深度学习入门班Task1的内容,这是datawhale夏令营的第5期的内容,本次的任务是通过学习书本1.1节通过案例了解机器学习(对应书本9-14页)。

1.什么是机器学习?

机器学习算法是一种能够从数据中学习的算法。专业的定义:“对于某类任务 T 和性能度量 P,一个计算机程序被认为可以从经验 E 中学习是指,通过经验 E 改进后,它在任务 T 上由性能度量 P 衡量的性能有所提升。”简单概括一下就是:利用经验改善系统自身的性能。

我们回到苹果书,苹果书对这个专业的定义做了简化,并使用了函数来进行类比。“具体来讲,机器学习就是让机器具备找一个函数的能力。机器具备找函数的能力以后,它可以做很多事。”

机器学习的案例很多,传统的机器学习更多的基于统计学的知识,因此又称统计学习,传统的机器学习需要我们手动提取特征,进行特征工程,最近这些年,随着深度学习的崛起,目前我们更多的依靠深度学习来自动提取特征,深度学习这些特征都是模型可以学习的。

机器学习的任务分类:我们可以根据输出的不同,将机器学习的任务主要分为回归任务和分类任务。其他的任务或多或少的都可以归为这两类。

如果我们预测结果是离散值,那么这类任务叫做分类(classification),如果只有两个类别,那么就是简单的二分类任务,如果有多个类别,那么就是多分类任务。常见的分类任务举例:手写数字识别、垃圾邮件检测、人脸识别等。

如果我们的预测值是连续值,那么这类任务叫做回归(regression),回归任务我们需要输出一个预测值,常见的回归任务包括房价预测、天气预报、股票预测等。

2.案例学习

苹果书以视频点击为例,通过引入案例来向我们解释什么是机器学习,深入浅出。

视频的点击次数预测,这是一个回归问题。“找一个函数,该函数的输入是后台的信息,输出是隔天这个频道会有的总观看 的次数。”

机器学习的第1步是定义一个函数。我们定义输出为:y = b + wx1 (1.1)。这是一个线性函数,我们的任务就是要学会这个函数,总之,y = b + w ∗ x1,而 b 跟 w 是未知的。带有未知的参数 (parameter)的函数称为模型(model)。模型在机器学习里面,就是一个带有未知的参数 的函数,特征(feature) x1 是这个函数里面已知的,它是来自于后台的信息,而 w 跟 b 是未知的参数。w 称为权重(weight),b 称为偏置(bias)。

然后第2步,我们需要定义损失函数,loss。我们可以取均方根误差,即MSELoss。真实的值我们称之为标签Label,我们模型的输出和真实值之间测差异称为损失,我们的目标是使得损失函数最小。即是最小化训练集上的均方误差。

损失函数根据不同的任务,有不同的形式,常见的包括MAE(即L1Loss)和MSE(即L2Loss),也就是平均绝对误差和均方误差。

在多分类任务中,我们通常选择交叉熵损失函数(Cross Entropy)。

接下来第3步,我们需要求解最优化问题。即找到合适的参数b和w使得损失函数最小。梯度下降(gradient descent)是经常会使用优化的方法。

“首先要随机选取一个初 始的点 w0。接下来计算 ∂L /∂w |w=w0,在 w 等于 w0 的时候,参数 w 对损失的微分。计算在这一 个点,在 w0 这个位置的误差表面的切线斜率,也就是这一条蓝色的虚线,它的斜率,如果这 一条虚线的斜率是负的,代表说左边比较高,右边比较低。在这个位置附近,左边比较高,右 边比较低。如果左边比较高右边比较低的话,就把 w 的值变大,就可以让损失变小。如果算 出来的斜率是正的,就代表左边比较低右边比较高。左边比较低右边比较高,如果左边比较低 右边比较高的话,就代表把 w 变小了,w 往左边移,可以让损失的值变小。这个时候就应该 把 w 的值变小。”

“这一步的步伐的大小取决于两件事情:

• 第一件事情是这个地方的斜率,斜率大步伐就跨大一点,斜率小步伐就跨小一点。

• 另外,学习率(learning rate)η 也会影响步伐大小。学习率是自己设定的,如果 η 设 大一点,每次参数更新就会量大,学习可能就比较快。如果 η 设小一点,参数更新就很 慢,每次只会改变一点点参数的数值。这种在做机器学习,需要自己设定,不是机器自己找出来的,称为超参数(hyperparameter)。”

第1步后,我们从w0移动到了w1这个点,在w1这个点继续我们之前的步骤,如此往复,直到达到我们的要求后停止。

那么什么时候停止呢?这里分两种情况:

1)达到我们的迭代次数,比如我们设置迭代次数500次,那么计算500次后,就可以停止了;

2)梯度不再变化,当在某一个点的时候我们计算出它的微分值刚好等于0,那么此时我们的参数w就不会再更新了,此时停止。

梯度下降存在一个问题,就是可能我们会陷入一个局部极小值点,此时梯度为0,参数不再更新,然而实际上这个点并不是我们的最小值点。可以参考下图:

我们可以很容易的从一个参数推广到多个参数的情况。我们同样是计算梯度,更新,再计算梯度,再更新。如此循环往复。直到找到最好的参数值。

总结:

这一部分介绍了机器学习的基础概念,机器学习的任务,然后以预测视频点击次数为例,介绍了机器学习的基本步骤。

喜欢的小伙伴收藏点赞关注吧。

  • 4
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值