利用脑图对数据挖掘的流程进行了简单的描述,但并不完整。之后会继续完善。
(也可能存在一定的错误)
有监督学习
有标签
预测的是离散值–分类
预测的是连续值–回归
无监督学习
无标签
预测–聚类
泛化能力
分布
归纳学习
狭义
广义 概念学习 布尔学习(是/否)
版本空间(与训练集一致的假设集合)
偏好(归纳偏好)
奥卡姆剃刀(若有多个假设符合,选择最简单的)
NFL定理告诉我们,但对于不同的算法来讲,总误差都相同(可能这一个测试集符合算法1,而下一个测试集复合算法2)
所以要结合具体实际去分析问题,不同的算法适用于不同的情况
经验误差与过拟合
错误率(错误样本数占总样本数)
精度(1-错误率)
学习器实际预测样本输出与真实样本输出的误差称为误差
在测试集中的误差称为经验误差/训练误差
在新样本中的误差称为泛化误差
经验误差很小的时候,往往是学习器将训练样本自身的特点进行了学习,会导致过拟合,从而使的泛化能力变差
过拟合 经验误差小 泛化误差大
欠拟合 经验误差大 泛化误差大
过拟合无法避免,只能进行缓解
训练集与测试集的选定
测试集中的元素最好应与训练集中的元素完全不同,否则得到的结果会过于乐观
用测试集上的误差作为泛化误差的近似