回归与分类
如果预测的是离散值,则此类学习任务称为分类
如果预测的是连续值,则此类学习任务称为回归
### 分类
分类包括二分类和多分类
二分类分为正类和负类
有监督和无监督学习
根据是否拥有标记信息学习任务可以分成有监督和无监督学习
分类和回归属于有监督学习
聚类属于无监督学习
错误率和精度
错误率:分类错误的样本数m占总样本数n的比例 E=m/n
精度:1-错误率
误差:学习器的实际预测输出和样本真实输出之间的差异
包括训练误差和泛化误差
过拟合(overfitting)和欠拟合(underfitting)
过拟合:把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,导致泛化性能下降
欠拟合:对训练样本的一般性质尚未学好
导致过拟合因素:最常见由于学习能力过于强大
导致欠拟合因素:由于学习能力过于低下(欠拟合好克服,决策树扩展分支,神经网络增加训练轮数)
评估方法
留出法:将数据集D划分成两个互斥的集合,其中一个集合作为训练集S,另一个作为测试集T (采用分层采样),选用2/3 或者4/5样本用于训练,其余样本用于测试
交叉验证法:先将数据集D划分成k个大小相似 的互斥子集,每个子集尽量保持数据的一致性,每次用k-1个子集的并集作为训练集,余下的那个子集作为测试集。
自助法:自助法在数据集比较小,难以有效分训练/测试时很有用。样本数据集D,采样数据集D',每次随机从D中挑出一个样本,放入D'中,再将样本放入D,以便下次采样应有可能被采到。
注:参考周志华《机器学习》