当利用training data训练完模型以后,发现训练的模型的泛化能力不好,对新数据误差较大。该怎么办?该如何改进该算法?常用的有以下几种方法:
1.使用更多的训练样本
2.减小特征数量,防止出现过拟合现象
3.增特特征数
4.增加多项式,提高模型精度
5.增大/减小正则化的参数
以上几种方法,该如何选择?
一.如何评估机器学习算法的性能
如何评估
将数据集划分,一部分作为训练集,一部分作为测试集,划分比例一般为7:3。且划分最好是无序、随机的。
对于线性回归算法:首先利用training data训练集得到代价函数最小的参数,然后利用该参数计算测试集误差。
对于分类问题,即逻辑回归:步骤与线性回归相似。