机器学习:寻找一个函数,使机器具有完成某个任务的能力。
机器学习的任务:1回归(输出为一个数值)2分类(输出一个选择的结果)如AlphaGo
3结构化学习(产生一个有结构的物体)比如让机器画一张图写一篇文章。
案例学习:找到带有未知参数的函数f,选取合适的函数来拟合
y = b + w ∗ x1,而 b 跟 w 是未知的。带有未知的参数的函数称为模型(model)。模型在机器学习里面,就是一个带有未知的参数的函数,特征x1 是这个函数里面已知的,它是来自于后台的信息, w 跟 b 是未知的参数。w 称为权重,b 称为偏置
第1步:
猜测函数为y=kx+b,然后估算与真实的差距,得到y 与 yˆ
y 与 yˆ 之间绝对值的差距,e = |yˆ − y|,称为平均绝对误差
如果算y与yˆ之间平方的差距,如式 (1.7) 所示,则称为均方误差e = (ˆy y − y)2
第 2 步:有一些任务中 y 和 yˆ 都是概率分布,这个时候可能会选择交叉熵
计算它的损失,画出来的等高线图称为误差表面
第3步:
常用方法:梯度下降
学习率η也会影响步伐大小。学习率是自己设定的,如果η设
大一点,每次参数更新就会量大,学习可能就比较快。如果η设小一点,参数更新就很
慢,每次只会改变一点点参数的数值。这种在做机器学习,需要自己设定,不是机器自
己找出来的,称为超参数
但如果在梯度下降中,w0是随机初始的位置,也很有可能走到wT这里,训练就停住了,无法再移动w的位置。右侧红点这个位置是真的可以让损失最小的地方,称为全局最小值,而wT这个地方称为局部最小值,其左右两边都比这个地方的损失还要高
一点,但是它不是整个误差表面上面的最低点。