数据挖掘分类技术

最新推荐文章于 2022-12-06 17:10:13 发布

VIP文章 happyblogs

最新推荐文章于 2022-12-06 17:10:13 发布

阅读量4.2k

点赞数

分类专栏：机器学习与数据挖掘文章标签：数据挖掘算法网络测试 android 图形

本文链接：https://blog.csdn.net/happyblogs/article/details/7364381

版权

数据挖掘分类技术

作者：sccot 撰写日期：2012-02-28

1、过分拟合问题：

造成原因有：（1）噪声造成的过分拟合（因为它拟合了误标记的训练记录，导致了对检验集中记录的误分类）；（2）根据少量训练记录做出分类决策的模型也容易受过分拟合的影响。（由于训练数据缺乏具有代表性的样本，在没有多少训练记录的情况下，学习算法仍然继续细化模型就会产生这样的模型，当决策树的叶节点没有足够的代表性样本时，很可能做出错误的预测）（3）多重比较也可能会导致过分拟合（大量的候选属性和少量的训练记录最后导致了模型的过分拟合）

2、泛化误差的估计：

（1）乐观估计（决策树归纳算法简单的选择产生最低训练误差的模型作为最终的模型）（2）悲观误差估计（使用训练误差与模型复杂度罚项的和计算泛化误差）（3）最小描述长度原则（模型编码的开销加上误分类记录编码的开销）（4）估计统计上界（泛化误差可以用训练误差的统计修正来估计，因为泛化误差倾向于比训练误差大，所以统计修正通常是计算训练误差的上界）（4）使用确认集（如2/3的训练集来建立模型，剩下的用来做误差估计）

3、处理决策树中的过分拟合：

A)：先剪枝（提前终止规则）：当观察到的不纯性度量的增益（或估计的泛化误差的改进）低于某个确定的阈值时就停止扩展叶节点。B)：初始决策树按照最大规模生长，然后进行剪枝的步骤，按照自底向上的方式修剪完全增长的决策树。修剪有两种方法：（1）用新的叶节点替换子树，该叶节点的类标号由子树下记录中的多数类确定；（2）用子树中常见的分支替代子树。当模型不能再改进时终止剪枝步骤。与先剪枝相比，后剪枝技术倾向于产生更好的结果。

4、评估分类器的方法：

（A）：保持方法（用训练集的一部分来做训练一部分做检验，用检验的准确度来评估）（B）随机二次抽样（第一种方法进行K次不同的迭代，取其平均值）（C）交叉验证（每个记录用于训练的次数相同，并且用于检验恰好一次）（D）自助法（有放回抽样）

1.1、决策树分类

算法思想：递归的选择一个属性对对象集合的类标号进行分类，如果分类到某一属性时发现剩下的对象属于同一类，此时就不必再选择属性就行分类，而只用创建一个叶节点并用共同的类来代表。否则，继续选择下一属性进行分类操作，直到某一分类结果全在同一类或者没有属性可供选择为止。根据选择属性的顺序可以将决策树算法分为ID3,C4.5等。其中，决策树算法CART只产生二元划分，它们考虑创建K个属性的二元划分的所有2^{^(k-1)}-1中方法。图1显示了把婚姻状况的属性值划分为两个子集的三种不同的分组方法。对于连续属性来说，测试条件可以是具有二元输出的比较测试（A<v）或（A>=v），也可以是具有形如v_i<=A<=v_i+1（i=1,21，…，k）输出的范围查询（如图2所示）。

问：预测集中的每条记录的属性取值集合是否就和训练集的某一个记录的属性取值集合相等？

答：不一定，一般来说是不可能的。但是建立的决策树一定包含该取值集合（但是可能范围会大些）。因为决策树建过程是只要当前的所有对象属于同一个标号就不再继续选择属性了，所以，实际上建立的决策树所包含的对象是比训练集中的对象要多得多的，这些多余的对象可能就包含当前的预测对象。这也是决策树能够用来进行分类的原因。

决策树归纳的特点：

（1）找到最优决策树是NP完全问题；（2）采用避免过分拟合的方法后决策树算法对于噪声的干扰具有相当好的鲁棒性。

1.2、基于规则的分类

基于规则的分类使用一组if…then规则来分类记录的技术。算法思想：先从训练集生成规则集合，规则是使用合取条件表示的：如规则r_i：（条件_i）->y_i,其中r₁是如下形式：r₁：（胎生=否）^（飞行动物=是）->鸟类;其中左边称为规则前件或前提；规则右边称为规则后件。如果规则r的前件和记录x的属性匹配，则称r覆盖x。当r覆盖给定的记录时，称r被激发或被触发。建立规则集合后，就进行分类。对每个待分类的记录和规则集合中的每条规则进行比较，如果某条规则被触发，该记录就被分类了。

问：由于规则集中的规则不一定是互斥的，所有有可能分类的时候某条记录会属于多个类（也就是说某条记录会同时触发规则集中的超过1条的过则，而被触发的规则的

最低0.47元/天解锁文章

happyblogs

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
数据挖掘分类技术

数据挖掘分类技术作者：sccot 撰写日期：2012-02-281、过分拟合问题：造成原因有：（1）噪声造成的过分拟合（因为它拟合了误标记的训练记录，导致了对检验集中记录的误分类）；（2）根据少量训练记录做出分类决策的模型也容易受过分拟合的影响。（由于训练数据缺乏具有代表性的样本，在没有多少训练记录的情况下，学习算法仍然继续细化模型就会产生这样的模型，当决策树的叶节
复制链接

扫一扫