5.6 组合方法
5.6.1 组合方法基本原理
组合分类器性能优于单个分类器必须满足:(1)基分类器之间互相独立(2)基分类器应当好于随机猜测分类器
5.6.2 构造组合分类器的方法
构造组合分类器的几种方法:
1.处理训练数据集,对原始数据进行再抽样来得到多个训练集。袋装和提升
2.处理输入特征,随机森林
3.处理类标号,错误-纠正输出编码
4.处理学习算法
5.6.3偏倚-方差分解
偏倚-方差分解是分析预测模型的预测误差的形式化方法。
将分类器的期望误差分解为分类的偏倚、方差、噪声。
偏倚:在训练数据集时,分类器的决策边界性质决定了分类结果与目标分类结果的偏差,即偏倚
方差:受训练数据可变性影响,训练集合的不同成分可能导致不同的决策边界
噪声:目标类的不确定性
偏倚和方差取决于使用分类器的类型,噪声取决于目标类性质
5.6.4 袋装
一种根据均匀概率分布从数据集中重复抽样(有放回)的技术。