1 绪论
- 分类和回归
- 分类:预测的是离散值,classification
- 回归:预测的是连续值,regression
- 奥卡姆剃刀:若有多个假设与观察一致,则选择简单的那个
2 模型评估和选择
-
评估方法
- 留出法:train和test做split,尽量保证二者数据分布一致
- 交叉验证:cross-validation. 分为K组train和test,从而进行k此训练和测试,从而尽量利用所有数据
- 自助法:
-
性能度量
- accuracy:分类正确的样本占总样本个数,不区分正负样本
- precision:只考虑正样本,正确分类的正样本占分出的正样本总数
- recall:只考虑正样本,正确分类的正样本占实际的正样本总数
- F1: 为了平衡P(precision)和R(recall),如下