机器学习的任务就是学习一个模型,这个模型将X映射为Y,X是输入,Y是预测的输出。分类问题中,Y是离散的值,如点击/不点击,好/坏,猫/狗/other;回归问题中,Y是连续值,如未来一个小时的降雨量、下个月的房价;
这个模型通常是一个带有参数的表达式,线性回归中,Y=W*X,W是参数;逻辑斯特回归中,, w和b是参数。
学习的目标是求参数w,令预测出的Y值和真实的Y值尽量接近,不同的应用场景,接近的标准不一样。衡量接近程度的东西称为损失函数,给定训练样本后,损失函数是未知参数的函数,训练的过程就是求使得损失函数最小的参数值。
对于分类问题,常用的损失函数有log loss, KL divergence, hinge loss等
对于回归问题,常用的损失函数有MAE(mean absolute error)、MSE(mean square error)、Huber loss、log cosh loss等
求解损失函数最小值通常是一个最优化问题,常用梯度下降、牛顿法、拟牛顿法等求解。