6. 正则项与超参数
正则项
数据损失:模型预测需要和训练集相匹配
正则损失:防止模型在训练集上学习的太好。(过拟合)
R(w)是一个与权值有关,跟图像数据无关的函数。
超参数
在开始学习过程之前设置值的参数,而不是学习得到的。。
超参数一般都会对模型性能有着重要的影响。
7. 什么是优化
什么是参数优化?
参数优化实际其学籍的核心步骤之一,他利用损失函数的输出值作为反馈信号来调整分类器参数,以提升分类器对训练样本的预测性能。
优化算法目标:
损失函数
损失函数L 是一个与参数W有关的函数,优化的目标就是找到是损失函数L达到最优的那组参数W。
8. 梯度下降算法
梯度下降算法:一种简单而高效的优化算法
往哪儿走:负梯度方法
走多远:步长来决定
梯度下降:利用所有样本计算损失并更新梯度。
梯度计算:
- 数值法; 一维变量,函数求导。计算量大,不精确
- 解析法:求导,精确,速度快,导数函数推导易错。
- 求梯度是一般使用解析梯度,而数值梯度主要用于解析梯度的正确性校验(梯度检查)
作业:如何计算多类支撑向量机损失的导数函数。
梯度下降算法的计算效率。
梯度下降:利用所有样本计算损失并更新梯度。
随机梯度下降算法:每次随机选择一个样本Xi, 计算损失并更新梯度。
单个样本的训练科能会带来很多噪声,不是每次迭代都向着整体最优化方向。
小批量梯度下降算法:每次随机选择m(批量的大小)个样本,计算损失并更新梯度。m为超参数
tip:通常使用2的幂数作为批量大学,比如每次选取32或64或128个样本
- itration:表示一次迭代,每次迭代更新一次网络结构的参数。
- batch-size:1次迭代所使用的样本量
- epoch:1个epoch表示过了一遍训练集中的所有样本。
总结:
9. 数据集划分
如果模型中含有超参数(比如正则化强度),如何找到泛化能力最好的超参数?
使用验证集。
训练集用于给定的超参数时分类器参数的学习;
验证集用于选择超参数;
测试集评估泛化能力。
K折交叉验证
问题:如果数据很少,那么可能验证机包含的样本就太少,从而无法在统计上代表数据。
这个问题很容易就发现:如果在划分数据前进行不同的随机打乱,最终的到的模型性能差别很大,那么就存在这个问题。
带有打乱数据的重复K折验证:
将三个验证折数据集打乱顺序,可以更好的处理。
10. 数据预处理
数据预处理-1
数据预处理-2
去相关可以降低维度