分类任务就是确定对象属于哪个预定义的目标类。
- 介绍分类的基本概念
- 讨论诸如模型过分拟合的问题
- 评估和比较分类性能的方法
1Prerequisite Knowledge
分类任务的输入数据是记录的集合,用元组表示
区分分类和回归的关键特征:目标属性是离散的还是连续的
- 分类:分类任务就是通过学习得到一个目标函数f,把每个属性x映射到一个预先定义的类标号y
目标:
描述性建模:作为解释性工具用于区分不同类中的对象
预测性建模:分类模型还可以用于预测未知记录的类标号
非常适用于预测和描述二元或标称类型的数据集。
2解决分类问题的一般方法
一种根据输入数据集建立分类模型的系统方法
+ 典型方法
+ 决策树分类法
+ 基于规则的分类法
+ 神经网络
+ SVM
+ Navie Bayes Classification
共同点:使用一种学习算法确定分类模型,很好地拟合输入数据中类标号和属性集之间的联系/, 是一种很好的泛化能力模型。
评估方式
混淆矩阵:提供衡量分类模型性能的信息
性能度量:准确率,错误率
3决策树归纳Decision Tree
3.1决策树的工作原理
一系列问题和这些问题的可能回答可以组织成决策树的形式,决策树是一种由结点和有向边组成的层次结构。
三种结点
- 根节点
- 内部节点
- 叶节点:赋予一个类标号
3.2如何建立决策树
由于:搜索空间是指数规模的,找出最佳是不可行的
解决:采用贪心算法,采取一系列局部最优决策来构造决策树
3.2.1Hunt算法
属性测试条件attribute test condition
+ 1.Dt数据在一个目标属性:定位叶节点
+ 2.Dt数据在不同目标属性,分裂划分
+ 附加条件来简化决策
+ 第二步所创建的子女节点可以为空。
+ 如果与Dt相关联的所有记录都具有相同的属性值(目标属性除外),则不再进一步划分,以majority作为标号
3.2.2决策树归纳的设计问题
- 如何分类训练记录?属性测试条件的选择
- 如何停止分裂过程?
3.3表示属性测试条件的方法
为不同类型的属性提供表示属性测试条件和其对应的输出
+ 二元属性
+ 标称属性:多路划分
+ 序数属性
+ 连续属性
3.4选择最佳划分的度量
有很多度量可以用来确定划分记录的最佳方法,这些度量 用划分前和划分后记录的类分布定义。
选择最佳划分的度量通常是根据划分后子女节点的不纯度的程度。
- Entropy
- Gini
- C lassification error
比较划分前的不纯程度和子女结点的不纯程度,期望获得最大化的增益:
- 1二元属性的划分
- 2标称属性的划分
- 3连续属性的划分
- 4增益率
3.5决策树归纳算法
- 输入:训练记录集E和属性集F
- 精髓:递归地选择最优的属性来划分数据,并扩展叶结点
- 建立决策树之后可以进行树剪枝,以减小决策树的规模。
3.6例子:Web机器人检测
Web使用挖掘 是使用数据挖掘的技术,从web访问日志中提取有用的模式。
区分:用户访问和web机器人访问
3.7决策树归纳的特点
- 1决策树归纳是一种构建分类模型的非参数方法
- 2 找到最佳的决策树是NP完全问题
- 决策边界:属性测试条件是涉及单个属性
- 斜决策树:oblique decision tree,允许测试条件涉及多个属性
4模型的过分拟合
- 训练误差training error
- 泛化误差generalization error
过分拟合和拟合不足是两种与模型复杂度有关的异常现象
4.1噪声导致的过分拟合
训练记录被错误的标记
4.2缺乏代表性样本导致的过分拟合
根据少量训练数据做出分类决策的模型,很可能做出错误的预测
4.3过分拟合与多重比较过程
大量的候选属性和少量的训练记录最后导致了模型的过分拟合
4.4泛化误差估计
模型的复杂度对模型的过分拟合有影响:如何确定正确的模型复杂度?理想的复杂度是能产生最低泛化误差的模型的复杂度。
- 1.使用再代入估计:假设训练数据集可以很好地代表整体数据,因而使用训练误差提供对泛化误差的乐观估计。
- 2.结合模型复杂度
模型越复杂,出现过拟合的几率就越高。采用更简单的模型:
- 奥卡姆剃刀Occam’s razor:给定两个具有相同泛化误差的模型,较简单的模型比较复杂的模型更可取。
- 训练误差
- 模型复杂度惩罚项penalty term:对于二叉树来说,0.5的惩罚项意味着只要至少能够改善一个训练记录的分类,结点就应该扩展。
- 最小描述长度原则minimum description length:
- 估计统计上界:泛化误差可以用训练误差的统计修正来估计。 训练误差的上界
- 使用确认集
- 节俭原则principle of parsimony
4.5处理决策树归纳中的过分拟合
- 先剪枝(提前终止规则)
- 后剪枝:按照自底向上的方式修剪完全增长的决策树。
5评估分类器的性能
模型选择Model Selection:估计误差有助于学习算法进行模型选择。
5.1保持方法
将被标记的原始数据划分成两个不相交的集合,分别称为训练及和检验集。
在训练数据集上归纳分类模型,在检验集上评估模型的性能。
5.2随机二次抽样
可以多次重复保持方法来改进对分类器性能的估计
5.3交叉验证cross-validation
每个训练样本数据都用于检验,且恰好一次。
自助法
有放回的抽样法
6比较分类器的方法
依据数据集的大小,两个分类器准确率上的差异可能不是统计显著的。