1.1 机器学习基础
一、基础概念:
1.机器学习:就是指让一个机器具有寻找函数的能力。
而根据寻找函数种类的不同,机器学习又被赋予了两种任务:
1.回归:假设要找的函数的输出是一个数值,一个标量(scalar),这种机器学习的任务就被称为回归。
2.分类:分类任务是要让机器做选择题。我们先准备好一些称为类别的选项,机器现在要找的函数的输出就是从设定好的选项里面选择一个当作输出,该任务称为分类。
二、案例学习
以书中所讲的视频点击次数预测为例,机器学习寻找函数通常分为三个步骤:
1.写出一个未知函数 y=kx+b。其中y 是准备预测的东西,x是我们要用的东西,而当b和k是未知数时,这个函数称为模型,x称为特征,w称为权重,b称为偏置。
2.定义损失。在此可以分为两种损失函数:
平均绝对误差(Mean Absolute Error, MAE)
均方误差 (Mean Squared Error, MSE)
3.解一个“最优化”的问题。其中梯度下降是最常用的方法。
梯度下降解释:
目标: 我们有一个“错误分数”(也就是损失函数),这个分数告诉我们模型做得有多差。我们的目标是让这个分数尽可能小,模型就会表现得更好。
调整步骤: 梯度下降就像是你在玩一款迷宫游戏。你站在一个高处,想要走到最低点。梯度下降会告诉你每一步该往哪个方向走才能尽快到达低点。
不断重复: 你会一遍又一遍地走,每次都稍微调整一下方向,直到你到达最低点(也就是错误最小的地方)这一“步”会取决于两个事情:
• 第一件事情是这个地方的斜率,斜率大步伐就跨大一点,斜率小步伐就跨小一点。
• 第二件事便是这个函数的变化率,学习率η 也会影响步伐大小。学习率是自己设定的,如果 η 设大一点,每次参数更新就会量大,学习可能就比较快。如果 η 设小一点,参数更新就很慢,每次只会改变一点点参数的数值。这种在做机器学习,需要自己设定,不是机器自己找出来的,称为超参数。
梯度下降的缺点:可能只找见局部最小值,可能找不到最好的结果(在wT的时候停了,但最右边红点才是全局最优解)
图1.1 局部最小值和全局最小值的区分