如何评估一个算法?
分成训练集、交叉验证集和测试集;在训练集上得到多组模型后,在交叉验证集上计算交叉验证误差,选取代价函数值最小的模型,在测试集上计算推广误差:代价函数、误分率等。
一般算法不理想,要么是偏差大(欠拟合),要么是方差大(过拟合)。
如何判断是高方差还是高偏差?(画图)
方差、偏差和多项式次数的关系:
通常会选择正则化方法来防止过拟合。方差、偏差与正则化参数的关系:
有哪些方法改进算法:
类偏斜的误差度量:
类偏斜情况表现为我们的训练集中有非常多的同一种实例,只有很少或没有其他类的实例,如预测癌症是否是恶性的训练集,只会有0.5%的实例是恶性肿瘤。,如何度量这种情况的误差呢?用查准率和查全率:
查准率又叫精确率,查全率又叫召回率。
未完待续。。。