学习目标: 简略过一遍西瓜书第一、二章 学习内容: 看西瓜书,对照南瓜书的公式学习 学习时间: 周一 上午 周二 上午+下午1h输出 学习产出: 归纳偏好 具体问题中,才有模型“好”与“坏”之分 脱离具体问题,不存在模型好坏的判断 过拟合与欠拟合 过拟合:为训练系量身定制,泛化性能很差 欠拟合:泛化性能好,但是过于General,准确率低 评估法 数据量足够 留出法 交叉验证法 数据量很小 bootstrapping 每次都拿出一个放测试集,最终剩下没有进入测试集的概率为1/e 性能度量 错误率E 精读acc acc=1-E 查准率P= TP / (TP+FP) 这么多样本中,做出了准确判断的概率 查全率 R=TP / (TP+FN) 查准率高时,查全率低,反之亦然;除非是很简单的任务,两者都可能很高。 F1 模型的好坏 ROC(横轴FPR,纵轴TPR) AUC 样本预测的排序质量 代价错误 不同的错误造成不同的后果