目录
序言
基本概念
机器学习(Machine Learning,ML)是让机器具备找函数的能力
任务类别
回归:通过已有数据,分析获得回归函数,得到预测数据。输出的应当是数值,标量(scalar)
分类:在限定的范围内,输出一个选项
结构化学习:输出结构化的东西
1.1 案例学习
找函数分为三个步骤:
步骤一 猜测函数
通过领域知识(domain knowledge),即对这个问题本质上的了解,猜测出一个函数。
这个带有未知(猜测假定的)参数(parameter)的函数被称为 模型(model)
如 y = b + w ∗ x
其中,x(特征,feature)为已知量,y为准备预测的量。b,w常常未知。b被称为偏置(bias),w被称为权重(weight)。
步骤二 定义损失
损失(loss)是函数L(b,w),其代表着参数的准确(或许不该用这个词,但’好‘又太模糊)与否
损失跟真实值(label)与预测值的差距e有关
e 有多种计算方式:
·平均绝对误差(Mean Absolute Error,MAE)——绝对值差距,e = |yˆ − y|
·均方误差(Mean Squared Error,MSE)——平方差距,e = (yˆ − y)^ 2
·交叉熵(cross entropy)——适用于概率分布
尝试不同参数,计算损失,可绘制等高线图-误差表面
步骤三 优化模型
课程主要介绍了 梯度下降(gradient descent) 的方法
任取参数,计算其对于损失的微分,根据微分正负判断改变方向,根据微分大小与学习率(learning rate)——其为超参数(hyperparameter),是自己设定的,判断改变大小,反复,直至最好的解。
但其中存在一个问题,这个最优解(目前的),即损失最小值,可能并非全局最小值(global minima),而是局部最小值(local minima)。数学中最小值与极小值的既视感。但老师说这是个假问题,网友给出解答如下:
线性回归不存在局部最小值的原因在于其损失函数是凸函数、损失空间没有弯曲,凸函数保证了所有的局部最小值也是全局最小值,即任何找到的最小值点都是该函数的最低点。