八、小结
分类是一种数据分析形式,它提取描述数据类的模型。分类器预测类别标号(类)。数值预测建立连续值函数模型。分类和数值预测是两类主要的预测问题。
决策树归纳是一种自顶向下递归树归纳算法,它使用一种属性选择度量为树的每个非树叶结点选择测试属性。ID3、C4.5和CART都是这种算法的例子, 它们使用不同的属性选择度量。
朴素贝叶斯分类基于后验概率的贝叶斯定理。它假定类条件独立,即一个属性值对给定类的影响独立于其他属性的值。
支持向量机(SVM)是一种用于线性和非线性数据的分类算法。它把源数据变换到较高维空间,使用称作支持向量的基本元组,从中发现分离数据的超平面。
混淆矩阵可以用来评估分类器的质量。评估分类器预测能力的度量包括准确率、灵敏度(又称为召回率)、特效性、精度、F和Fβ。
分类器的构造与评估需要把标记的数据集划分成训练集和检验集。保持、随机抽样、交叉验证和自助法都是用于这种划分的典型方法。
组合方法可以通过学习和组合一系列个体(基)分类器模型来提高总体准确率。装袋、提升和随机森林都是流行的组合方法。
当感兴趣的主类只由少量元组代表时就会出现类不平衡问题。处理这一问题的策略包括过抽样、欠抽样、阈值移动和组合技术。