11、Machine learning system design(机器学习系统设计)
11.2 Error analysis(误差分析)
本节推荐在验证集上进行误差分析,而非在测试集上进行误差分析。
11.3 Error metrics for skewed classes(不对称性分类的误差评估)
分类精确度不能作为一个很好的误差分析,本节讲到了查准率(precision)和召回率(recall)。
查准率P=真正为1(positive)且预测为1的数目 / 预测为1的数目;召回率R=真正为1且预测为1的数目 / 真正为1的数目。
11.4 Trading off precision and recall(查准率和召回率的平衡)
如何权衡查准率和召回率,本节讲到了
F
(
F
1
)
F(F_1)
F(F1)值:
F
(
F
1
)
=
2
P
R
P
+
R
F(F_1)=2\frac{PR}{P+R}
F(F1)=2P+RPR
F
(
F
1
)
F(F_1)
F(F1)值越大越好。
11.5 Data for machine learning(机器学习数据)
数据集越多越好,数据集有时候比算法还重要。