机器学习一二章节笔记
机器学习是致力于研究如何通过计算手段,利用经验来改善系统自身得性能,经验通常以数据形式存在,机器学习所研究的主要内容是关于在计算机上从数据中产生‘模型’的算法,即学习算法,有了学习算法,我们把经验数据提供给他,它就能基于这些数产生的模型,在面对新的新的情况时,模型会给我们提供相应的判断,可以说机器学习时研究关于学习算法的学问
模型的评估方法:
1、留出法
直接将数据集划分为两个互斥的集合,一个作为训练集,一个作为测试集,比例大多为 2/3 ~ 4/5
2、交叉验证法
将数据集划分为K个子集,K-1个子集的并集作为训练集,另外一个作为测试集,共K种组合,最终评估结果是交叉验证结果的均值,其中K通常为5,10,20
3、自助法
性能度量:
1、错误率与精度
2、查准率、查全率与F1
3、ROC 与 AUC
4、代价敏感错误率与代价曲线