构建一个学习算法的推荐方法:
1.先设计一个简单快速实现的算法,实现该算法并通过交叉验证集测试该算法
2.绘制学习曲线,通过观察学习曲线,判断模型是欠拟合还是过拟合,然后决定通过增加测试集,增加特征,或者其他有效方法
3.进行误差分析,人工检查交叉验证集中算法判断错误的实例,看看这些实例是否有某种系统化的趋势
有时我们需要尝试不同的模型,然后进行比较,来选择那个模型更有效。我们通过一个数值来衡量,这个数值就是交叉验证结果的误差
引入查准率和查全率:
1.TP(True Positive)—预测为真,实际为真
2.FN(False Negative)–预测为假,实际为真
3.FP(False Positive)–预测为真,实际为假
4.TN(True Negative)–预测为真,实际为假
然后引入查准率和查全率的公式
另外我们可以查看不同算法随数据集的增加,准确率的变化曲线。
我们希望我们的算法是低偏倚和第偏差的,所以要做的就是选择更多的特征来降低偏移,增加更多的数据来降低偏差