数据挖掘导论学习总结——第四章

第四章:分类与预测

分类方法用于预测数据对象的离散类别,预测则用于预测数据对象的梁旭取值,例如我们可以构造一个分类模型来对银行贷款进行风险评估,也可以简历一个预测模型以利用顾客收入与职业预测其可能用于购买计算机设备的支出大小。最初的数据挖掘方法大多都是建立在机器学习、专家系统、统计学和神经生物学等领域的分类与预测算法,目前数据挖掘方法都要求具有基于外存以处理大规模数据集合能力且具有可扩展性。本章讲初步探讨决策树归纳方法、贝叶斯分类方法和贝叶斯信念网络等数据分类方法,此外还有KNN、基于示例学习法、遗传算法等其他分类学习方法。而预测方法则包括线性及分线性回归模型等内容。

分类与预测基本知识

分类学习方法所使用的数据集称为训练样本集合,因此分类学习有称为监督学习,它是在已知训练样本类别的情况下,通过学习建立相应模型,而无监督学习则是训练样本的类别与类别个数均未知的情况下进行的。通常分类学习的模型可以表示为分类规则行事、决策树行事或数学公式形式等。在得到分类模型后,我们需要对模型分类的准确率进行估计,例如holdout方法。它利用一组带有类别的样本进行分类测试,测试样本随机获得且与训练样本相互独立。对于一个给定数据所构造出模型的准确性可以通过由该模型所正确分类的数据样本个数所占总测试样本比例得到。若模型的准确率是通过学习数据集的测试所获得的,这样由于学习模型倾向于过分逼近训练数据,从而造成对模型测试准确率的估计过于乐观。因此需要使用一个测试数据集来对所获得的模型的准确率进行测试工作。

分类与回归是两种主要预测形式,分类用于预测离散或符号值,而回归择时用于预测连续或有序值。通常在数据挖掘中,将预测离散无序类别的数据归纳方法称为分类方法,将预测连续有序值的数据归纳方法称为预测方法。

与分类与预测有关的若干问题

在进行分类或预测前,我们需要对数据进行预处理,以提高分类或预测的准确性、效率和可扩展性。数据预处理主要包括数据清洗、相关分析、数据转换三个步骤。在对分类方法进行比较时,我们可以用预测准确率、计算速度、鲁棒性、可扩展性和易理解性等方面对模型进行比较。其中鲁棒性是指在数据带有噪声和有数据遗失的情况下模型仍然能够进行正确预测的能力,可扩展性描述的是处理大量数据并构相应学习模型所需要的能力。

接下来我们将逐一介绍各个分类与回归模型。首先从我们最熟悉的决策树模型入手,读者们可以回顾一下信息熵和信息增益的概念。


基于决策树的分类

决策树归纳方法是目前许多基于规则进行归纳数据挖掘商用系统的基础,一下是最常用的ID3算法描述。

算法:Generate_decision_tree #根据给定数据集产生一个决策树
输入:训练样本,各属性均取离散数值,可供归纳的候选属性集为attribute_list
输出:决策树
处理流程:

  1. 创建一个结点N
  2. 若该结点中的所有样本均为同一类别C,则返回N作为一个叶结点并标记为类别C
  3. 若attribute_list为空,则返回N作为一个叶结点并标记为该结点所含样本中类别个数最多的类别。否则从attribute_list中选择一个信息增益最大的属性test_attribute,并将结点N标记为test_attribute
  4. 对于test_attribute中的每一个已知取值 ai a i ,划分结点N所包含的样本集。根据 test_attribute=ai t e s t _ a t t r i b u t e = a i 条件,从结点N产生相应的一个分支,表示该测试条件,并将 si s i 设为满足 test_attribute=ai t e s t _ a t t r i b u t e = a i 条件的样本集合
  5. si s i 为空,则将相应叶结点标记为该结点所含样本中类别个数最多的类别。否则将相应叶结点标记为Generate_decition_tree( si s i , attribute_list - test_attribute).

基本决策树算法是一个贪心算法,它采用自上而下,分而治之的递归方式。其中递归操作的停止条件分为三种:

  1. 一个节点的所有样本均为同一类别
  2. 若无属性可用与划分当前样本集,则利用投票原则,少数服从多数,将当前结点强制为叶节点,并标记为当前结点所含样本集中类别个数最多的类别。
  3. 没有样本满足 test_attribute=ai t e s t _ a t t r i b u t e = a i ,则创建一个叶结点并将其标记为当前结点所含样本集中类别个数最多的类别。

在决策树归纳方法中,通常使用信息增益方法来确定生成每个结点时所应采用的合适属性,这样可以选择具有最高信息增益(熵减少的程度最大)的属性作为测试属性,保证对之后所划分获得的训练样本子集进行分类时所需要的信息最少。也就是说,利用该属性进行当前样本集合划分,将会使得所产生的各样本子集中的“不同类别混合程度”降为最低。因此采用这种信息论方法可以帮助有效减少对象分类所需要的次数,从而确保产生的决策树最为简单,尽管不一定是最简单的。

设S代表一组训练样本集,每个对象的类别已知,共有m个不同类别,即S包含 si s i 个类别为 Ci C i 的数据行, i[1,2,...m] i ∈ [ 1 , 2 , . . . m ] . 任何一个对象属于 Ci C i 的概率为 pi=si/s p i = s i / s . 这里s为集合S中所有样本总数。一个决策树可用于对数据对象进行分类,因此决策树可以看成是 Ci C i 的一个信息源,为产生相应信息需要的信息熵为

I(s1,s2,...sm)=pilog2pi I ( s 1 , s 2 , . . . s m ) = − ∑ p i l o g 2 p i

若属性A可以取值为 { a1,a1,...av} { a 1 , a 1
  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值