《MACHINE LEARNING YEARNING》
这本书链接:《MACHINE LEARNING YEARNING》
以下皆为看书过程中,自己的理解,遂将其记录下来。
1、偏差:用来评估训练集好坏的标准 方差:用来评估模型泛化能力好坏的标准
2、减少可避免偏差的技术:加大模型规模、根据误差分析结果修改输入特征、减少或者去除正则化、修改模型架构、添加更多的训练数据集(有助于解决方差问题)。
3、减少方差的技术:添加更多的训练数据、加入正则化、加入提前终止、通过特征选择减少输入特征的数量和种类、减小模型规模、根据误差分析结果修改输入特征、修改模型架构、
4、选择开发集和测试集以反映你在将来想要正确处理的数据
5、正对数据不匹配问题:(I)尝试理解数据属性在训练集和开发集分布之间的差异。(ii)尝试找到更多的
训练数据,以便更好地匹配你的算法碰到的开发集样本。
6、从训练集泛化到开发集,以下是一些可能出现的问题:
1. 它在训练集上表现不佳,这属于训练集分布上的高(可避免)偏差的问题。
2. 它在训练集上做得很好,但是不能很好地泛化到与训练集分布相同的未知数据,这是高方差问题。
3. 它能够很好地泛化到与训练集相同分布的未知数据,但不能很好地泛化到与开发/测试
集相同分布的未知数据。我们将这种情况称之为 数据不匹配 ,因为训练集的数据与开发/测试集的数据匹配得相当地糟糕。