一. 基本概念
1.1 损失函数—经验风险函数
“经验风险”就是指由于拟合结果和样本标签之间的残差总和所产生的经验性差距所带来的风险,这是欠拟合的风险。损失函数(loss function)是用来估量你模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的鲁棒性就越好。损失函数是经验风险函数的核心部分,也是结构风险函数重要组成部分。
1.2 正则化惩罚项—结构风险函数
结构风险”就是刚才提到的模型不够“简洁”带来的风险。为使模型简洁泛化性能好,需要加入正则化惩罚项:
1.3 softmax分类器
将分类值得分值转换为概率值。以sigmoid函数为例:
他x取值为任意,y值取值为[0,1]
1.4 梯度下降法和学习率
梯度下降和学习率可以用如下简图描述,梯度下降的意思就是说对着运动的轨迹进行求导,导数就描述着运动的方向,为尽快找到最小值,就沿着导数的方向移动以更快更准确找到最小值。学习率则描述了每次变更位置的幅度,如果学习率过大,