1.线性回归:
线性回归输出的是一个连续值,因此适用于回归问题。
2.回归问题:
常见的回归问题例如房屋价格、气温以及销售额预测等连续值的问题。
3.分类问题:
分类问题中的模型最终输出是一个离散值,常见问题有图像分类以及疾病预测等。
4.一个线性回归模型的基本要素:
(1)模型:
其中x1和x2为权重(weight),b为偏差(bias),均为标量,是线性回归模型的参数。
(2)模型训练:
模型训练(model training)通过数据来寻找特定的模型参数值,使模型在数据上的误差尽可能小。
(3)训练数据:
收集所求问题的真实数据集作为训练数据集(training dataset,training set)。举个练习鸡出售价格预测的例子,一群训练时长不同的鸡放在一起,那么其中训练时长两年半的那只鸡就被称为一个样本(sample),而这只鸡的出售价格就叫做标签(label),而用来预测标签的因素就叫做特征(feature),特征用来表征样本的特点。
(4)损失函数:
在模型训练中,我们需要衡量价格预测值与真实值之间的误差。那么我们通常会选一个非负数作为误差,且数值越小则误差越小。
一个常用的函数是平方函数,在评估索引为i的样本误差的表达式为:
显然,误差越小表示预测价格与真实价格越相近。
这种以模型参数为参数的函数,在机器学习中叫作损失函数(loss function)。上述公式也叫作平方损失(square loss)。
(5)优化算法:
损失函数解的形式有两种,一种叫解析解(analytical solution),另一种叫数值解(numerical solution)。前者可以直接通过公式表达式计算出结果,例如线性回归和平房回归均属于此类。然鹅在深度学习模型中用到的基本都是数值解,即只能通过优化算法进行有限次的迭代来尽可能降低损失函数的值。
我们常说的小批量随机梯度下降(mini-batch stochastic gradient descent),它的算法是通过先选取一组模型的参数初始值,比如随机选取,接下来对参数疯狂迭代,让每次迭代都能降低损失函数的值。这里面我们提到的小批量,这个批量大小(batch size)是多少?这不是机器一次次计算它来决定的,而是我们打彩票一样靠经验来猜的,这种人为设定的参数,我们称之为超参数(hyperparameter)。大佬口中的“调参侠”做的工作就是不断训练然后寻找超参数最合适的值。同时,每次损失函数值变化梯度的大小由学习率控制,而学习率(learning rate)的大小也是由人来决定的,因此学习率也是一个超参数。该说不说,调参调的好坏,对实验效果的影响非常巨大。
(6)模型预测:
模型参数经过一次次的迭代更新后,训练完成时参数的值就是一个问题最优解的近似值,请注意,我们得到的并不是最优解。
PS:转载注明出处,如有侵权请联系作者删除。