第一章 绪论
NFL原理(没有免费的午餐):假设数据的分布均匀,使用任何分类方法的误差的期望是相同的【要针对具体的学习问题来谈论算法的相对优劣】
奥卡姆剃刀:如果多个假设与观察一致,则选择那个简单的
发展进展:
赋予机器逻辑推理能力----->把知识总结起来交给计算机------>让机器自己学习
第二章 模型评估与选择
1.如何划分训练集和测试集
(1)留出法:直接将数据集分为两个互斥的集合
(2)k倍交叉验证:将数据集D划分为k个大小相同的互斥子集,每个子集尽可能保持数据分布的一致性,每次用k-1个自己作为训练集,剩下的一个为测试集,进行k次训练(每次选取的测试集都不一样),然后求平均值
(3)自助法(取样):适用于数据集小,难以有效划分数据集【集成学习】
2.性能度量
种类 | 真实情况 | 预测情况 |
---|---|---|
TP | 正 | 正 |
FN | 正 | 负 |
FP | 负 | 正 |
TN | 负 | 负 |
查准率(P):TP/(TP+FP)
查全率(R):TP(TP+FN)
[查全率和查准率相互矛盾]
平衡点BEP(查全率=查准率)