1关于机器学习的改进
当我们使用机器学习算法解决实际问题时,可能在得到学习参数后,输入新的数据后效果不是很理想。即运用训练好了的模型来预测未知数据时发现了较大的误差。那么我们可以采用下面的方法来提高机器学习算法的性能。
1.获取更多的训练样本
2. 尝试减少特征的数量
3.尝试获的更多的特征
4. 尝试增加多项式特征
5.尝试减少正则化程度
5.尝试增加正则化程度
我们不应该随机选择上面的某种方法来改进我们的算法,而是运用一些机器学习诊断法来帮助我们知道上面哪些方法对我们的算法是有效的。“诊断法”的意思是:这是一种测试法,你通过执行这种测试,能够深入了解某种算法到底是否有用。
2评估假设( Evaluating a Hypothesis)
当我们确定学习算法的参数时,通常是通过选择参量来使训练误差(代价函数)最小化.代价函数最小并不代表这个已经训练好的学习算法非常的好,因为可能过拟合。该情况如下所示
为了检验算法是否过拟合,我们将数据集分为训练集和测试集,通常使用70%的数据作为训练集,用剩下30%的数据作为测试集。训练集和测试集均需要含有各种类型的数据,通常要先对数据进行洗牌,然后再分为训练集和测试集,如下所示