1,决定下一步做什么
当你想优化你的神经网络的时候,你可以从下面的几个方向入手:
当然你也可以获得更多的训练样本,但是这样的代价较大。
接下来介绍怎样评估机器学习算法的性能,讨论这些方法,它们也被称为"机器学习诊断法"。“诊断法”的意思是:这是一种测试法,你通过执行这种测试,能够深入了解某种算法到底是否有用。这通常也能够 告诉你,要想改进一种算法的效果,什么样的尝试,才是有意义的。这些诊断法的执行和实现,是需要花些 时间的,有时候确实需要花很多时间来理解和实现,但这样做的确是把时间用在了刀刃上, 因为这些方法让你在开发学习算法时,节省了几个月的时间。先来介绍如何评价你的学习算法。 在此之后,我将介绍一些诊断法,希望能让你更清楚。在接下来的尝试中,如何选择更 有意义的方法。
2,评估一个假设
介绍一个算法评估假设函数。为了检验算法是否过拟合,我们将数据分成训练集和测试集,通常用70%的数据作为训练集,剩下的作为测试集。
测试集评估在通过训练集让我们的模型学习得出其参数后,对测试集运用该模型,我 们有两种方式计算误差:
1.对于线性回归模型,我们利用测试集数据计算代价函数J;
2.对于逻辑回归模型,我们除了可以利用测试数据集来计算代价函数:
还可以对于每一个测试集实例,计算:
然后对计算结果求平均。
3,模型选择和交叉验证集
如果我们要在10个不同次数的二次项模型之间进行选择:
显然越高次数的多项式模型越能适应我们的训练数据集,但是并不代表着能推广至一般情况个,我们应该选择一个更能适应一般情况的模型,我们需要使用交叉验证集来帮助选择模型。即:60%数据集作为训练集,20%作为交叉验证集,剩下的20%作为测试集。
模型选择的方法为:
1,使用训练集训练出10个模型;
2,用10个模型分别对交叉验证集计算得出交叉验证误差(代价函数的值);
3,选择代价函数值最小的模型;
4,用步骤3中选出的模型对测试集计算得出代价函数的值;
4,诊断偏差和方差
当你运行一个学习算法时,如果这个算法的表现不理想,那么多半是出现两种情况: 要么是偏差比较大,要么是方差比较大。换句话说,出现的情况要么是欠拟合,要么是过拟 合问题。那么这两种情况,哪个和偏差有关,哪个和方差有关,或者是不是和两个都有关? 搞清楚这一点非常重要。判断一个算法是偏差还是方差有问题,对于弄清如何改进学习算法的效果非常重要,高偏差和高方差的问题基本上来说是欠拟合和过拟合的问题。
我们通常将训练集和交叉验证集的代价函数误差和多项式的次数绘制在同一张图标上来帮助分析:
可以看出,当模型的次数是一次的时候,训练误差最大,当次数最高时,训练误差很低但是交叉验证误差很高。
对于训练集,当 ? 较小时,模型拟合程度更低,误差较大;随着 ? 的增长,拟合程 度提高,误差减小。 对于交叉验证集,当 ? 较小时,模型拟合程度低,误差较大;但是随着 ? 的增长, 误差呈现先减小后增大的趋势,转折点是我们的模型开始过拟合训练数据集的时候。
如果我们的交叉验证集误差较大,我们如何判断是方差还是偏差呢?根据上面的图表:
训练集误差和交叉验证误差近似的时候,是偏差/欠拟合;
交叉验证误差远大于训练集误差时,是方差/过拟合;
5,正则化和偏差/方差
在我们在训练模型的过程中,一般会使用一些正则化方法来防止过拟合。但是我们可能 会正则化的程度太高或太小了,即我们在选择 λ 的值时也需要思考与刚才选择多项式模型次 数类似的问题。
我们选择一系列的想要测试的 ? 值,通常是 0-10 之间的呈现 2 倍关系的值(如:0.0,0.01,0.01,0.04,0.08,0.16,0.32,0.64,1.28,2.56,5.12)
当较小时,训练集误差较小(过拟合)而交叉验证集误差较大
随着的增加,训练集误差不断增加(欠拟合),而交叉验证集误差误差则是先减小后增加;
6,学习曲线
学习曲线可以判断某一个学习算法是否处于偏差、方差问题。学习曲线是将 训练集误差和交叉验证集误差作为训练集实例数量(?)的函数绘制的图表。即,如果我们有 100 行数据,我们从 1 行数据开始,逐渐学习更多行的数据。思想是: 当训练较少行数据的时候,训练的模型将能够非常完美地适应较少的训练数据,但是训练出 来的模型却不能很好地适应交叉验证集数据或测试集数据。
1,如何利用学习曲线识别高偏差/欠拟合:作为例子,我们尝试用一条直线来适应下面的 数据,可以看出,无论训练集有多么大误差都不会有太大改观:
也就是说在高偏差/欠拟合的情况下,增加数据到训练集不一定能有帮助。
2,如何利用学习曲线识别高方差/过拟合:假设我们使用一个非常高次的多项式模型,并 且正则化非常小,可以看出,当交叉验证集误差远大于训练集误差时,往训练集增加更多数 据可以提高模型的效果。
也就是说在高方差/过拟合的情况下,增加更多数据到训练集可能可以提高算法效果。
7,决定下一步做什么
训练的时候出现不理想的情况我们该怎么办:
1. 获得更多的训练实例——解决高方差
2. 尝试减少特征的数量——解决高方差
3. 尝试获得更多的特征——解决高偏差
4. 尝试增加多项式特征——解决高偏差
5. 尝试减少正则化程度 λ——解决高偏差
6. 尝试增加正则化程度 λ——解决高方差
神经网络的方差和偏差:
当小的神经网络神经元的数量少的时候,此时的神经网络更倾向于欠拟合;
当大的神经网络神经元的数量多的时候,此时的神经网络更倾向于过拟合;
使用较小的神经网络,类似于参数较少的情况,容易导致高偏差和欠拟合,但计算代 价较小;
使用较大的神经网络,类似于参数较多的情况,容易导致高方差和过拟合,虽然计算 代价比较大,但是可以通过正则化手段来调整而更加适应数据。
所以我们通常选择择较大的神经网络并采用正则化处理会比采用较小的神经网络效果要好。