归纳偏好inductive bias(行为准则 价值观): 奥卡姆剃刀
no lunch free:没有一种算法能在所有问题中均高于另一种算法==》不能脱离实际问题谈算法
切割测试集和训练集
为什么要切?
可能会存在underfitting(好解决,NN增加训练轮次,DT增加分支即可)和overfitting(若目标函数是最小化训练误差则过拟
合大概率存在且解决困难),所以要用tset测试集选模型
切割注意
要尽量保持数据分布的一致性(分层抽样 stratified sampling)
切割方法:
留出法(hold-out):多次划分取评估均值
交叉验证(cross validation)
e.g 有5个分类器,使用10折交叉验证把数据集D分成10个大小近似互不相交的子集;一共进行50次误差计算以选出最优模型
(对每个分类器:每次取9个做train1个做vali,进行10次评估,取误差均值)
(特例:留一法 leave one outLOO;即若数据有k个样本则使用k折交叉 优点是近似总体 缺点计算开销大)
自助法(boostrapping):
有放回抽样 不被采到的概率是0.368
保证训练集大小与数据集相同,且还有验证集
适用于数据集较小难以有效划分的情况
性能度量
查准率 precision = TP/TP+FP
查全率 recall = TP/TP+FN
平衡点break even point:查准=查全的点 可根据平衡点取值度量分类器
f1分数 当对P-R有侧重时可选择加权f1分数
代价敏感学习:http://blog.csdn.net/panda_zjd/article/details/72377208?winzoom=1
http://blog.csdn.net/hustqb/article/details/71109012
实现代码:http://blog.csdn.net/linmingan/article/details/72830539