**
Task01 绪论&模型评估与选择
**
分类:预测离散值;回归:预测连续值;聚类:学习过程中使用的训练样本不具有标记信息。
监督学习:分类、回归;无监督学习:聚类。
模型的泛化能力非常重要;训练误差:在训练集上的误差;泛化误差:在新样本上的误差。
评估方法:留出法;交叉验证法;自助法。
留出法:常见大约2/3~4/5的样本用于训练,剩余样本用于测试;
自助法:在数据集较小、难以有效划分训练/测试集时很有用,但改变了数据集的分布,会引入估计偏差;
均方误差:回归任务最常用的性能度量
TP(真正例) FN(假反例)
FP(假正例) TN(真反例)
查准率P = TP/(TP+FP)
查全率R = TP/(TP+FN)
平衡点:查准率=查全率