数据挖掘－分类：其它技术（一）

最新推荐文章于 2024-07-04 16:31:38 发布

数据出境研究所

最新推荐文章于 2024-07-04 16:31:38 发布

阅读量2.3k

点赞数

分类专栏：数据挖掘文章标签：数据挖掘测试网络图形工作

本文链接：https://blog.csdn.net/charcle/article/details/2431109

版权

数据挖掘专栏收录该内容

11 篇文章 0 订阅

订阅专栏

分类:其它技术一.基于规则分类器基于规则的分类器是使用一组"if...then..."规则来分类记录的技术.基于规则的分类器产生一个模型,该模型的规则用析取范式R=(r1Vr2Vr3V...rk)表示,其中R称作规则集,而ri是分类规则或析取项.每一个分类规则可以用如下表示:ri=(条件i)->yi,左边称为规则前件或前提,它是属性的合取:条件i=(A1 op V1)and(A2 op V2)....．如果规则r的前件和记录x的属性匹配，则称r覆盖x,r被x激活．分类规则的质量可以用覆盖率和准确率来度量：覆盖率=满足规则前件的记录数／记录总数．准确率＝同时满足规则前件和后件的记录数／满足规则前件的记录数１．基于规则的分类器的工作原理基于规则的分类器所产生的规则集的两个重要性质：互斥规则：规则集中不存在两个规则被同一条记录覆盖．穷举规则：如果对属性值的任一组合，Ｒ中都存在一条规则加以覆盖．

如果规则集不是互斥的，那么一条记录可以被多条规则覆盖，解决这个问题有如下两种方法：有序规则：规则集中的规则按照优先级降序排列，一个有序的规则集也称为决策表，当一个记录出现时，由覆盖记录的最高秩的规则进行分类．无序规则：允许一条测试记录触发多条分类规则，把每条被触发规则的后件看作是对相应类的一次投票，然后计票确定测试记录的类标号，把记录指派给得票最多的类． 2.规则的排序方案基于规则的排序方案：依据规则质量的某种度量对规则排序，确保每一个测试记录都是由覆盖它的＂最好的＂规则来分类．基于类的排序方案：属于同一个类的规则在规则集Ｒ中一起出现，然后，这些规则根据它所属的类信息一起排序，同一个类的规则之间的相对位置并不重要，只要一个规则被激发，类标号就会赋给测试记录． 3.如何建立基于规则的分类器为了建立基于规则的分类器,需要提取一组规则来识别数据集的属性和类标号之间的关键联系,提取分类规则的方法有两大类:(1)直接方法,直接从数据中提取分类规则.(2)间接方法:从其他分类模型(如决策树和神经网络)中提取分类规则. 4.规则提取的直接方法 *顺序覆盖:经常被用来直接从数据中提取规则,规则基于某种评估度量以贪心的方式增长.从包含多个类的数据集中一次提取一个类的规则. *Learn-One-Rule函数:提取一个分类规则,该规则覆盖训练集中的大量正例,没有或仅覆盖少量反例,它以一种贪心的方式增长规则来解决指数搜索问题. *规则增长策略:常见的分类规则增长策略有两种,从一般到特殊和从特殊到一般.在从一般到特殊的策略中,先建立一个规则,前件为空,后件包含目标类,接着加入合取项来提高质量,直到满足终止条件为止.从特殊到一般,可以随机的选择一个正例作为规则增长的初始种子,在求精步,通过删除规则的一个合取项,使其覆盖更多的正例来泛化规则. *规则评估:在规则增长过程中,需要一种评估度量来确定应该添加(或删除)哪个合取项.准备率是一个很明显的选择,蛤是没有考虑到规则的覆盖率. 5.规则提取的间接方法介绍一种从决策树生成规则集的方法,原则上,决策树从根结点到中结点的每一条路径都可以表示为一个分类规则,路径中的测试条件构成规则前件的合取项,中结点的类标号赋给规则后件,然后对规则进行剪枝处理. 6.基于规则的分类器的特征 *规则集的表达能力几乎等价于决策树. *基于规则的分类器通常被用来产生更易于解释的描述性模型. 二.最近邻分类器决策树和基于规则的分类器是积极学习方法,一旦训练数据可用,它们就开始学习从输入属性到类标号的映射模型.一个相反的策略是推迟对训练数据的建模,直到需要分类测试样例时再进行,叫消极学习方法. 找出和测试样例的属性相对接近的所有训练样例,将数据指派到其最近邻的多数类. 1.最近邻分类器的特征 *最近邻分类是一类更广泛的技术的一部分,这种技术称为基于实例的学习. *像最近邻分类器这样的消极学习方法不需要建立模型. *最近邻分类器基于局部信息进行预测,对K很小时,对噪声非常敏感. *最近邻分类器可以生成任意形状的决策边界. *除非采用适当的邻近性度量和数据预处理,否则最近邻分类器可能做出错误的预测. 三.贝叶斯分类器 1.贝叶斯定理 P(Y|X)=P(X|Y)P(Y)/P(X) 2.贝叶斯定理在分类中的应用在贝叶斯定理中,分母P(X)总是常数,因此可以忽略,先验概率P(Y)可以通过计算训练集中属于每个类的训练记录所占的比例很容易地估计,对类条件概率P(X|Y)的估计,有两种贝叶斯分类方法的实现:朴素贝叶斯分类器和贝叶斯信念网络. 3.朴素贝叶斯分类器 *给定类标号y, 朴素贝叶斯分类器在估计类条件概率时假设属性之间条件独立.那么:P(Y|X)=P(X|Y)P(Y)/P(X)=P(Y)*(P(Xi|y)*...*P(Xd|y))/p(x).其中d为分类属性的个数,对于分类属性Xi,根据类y中属性值等于xi的训练实例的比例来估计条件概率P(Xi=xi|Y=y),找出P(Y|X)的最大值. *条件概率的m估计:朴素贝叶斯分类的方法从训练数据估计后验概率时一个潜在的问题:如果有一个属性的类条件概率等于0,整个类的后验概率就等于0.解决该问题的途径是使用m估计方法来估计条件概率:P(xi|yj)=(Nc+mp)/(N+m),其中N是类yj中的实例总数,Nc是类yj的训练样例中取值xi的样例数,m是称为等价样本大小的参数,而p是用户指定的参数. *朴素贝叶斯分类器的特征面对孤立的噪声点,朴素贝叶斯分类器是健壮的. 面对无关属性,该分类器是健壮的. 相关属性可能会降低朴素贝叶斯分类器的性能,因为对这些属性,条件独立的假设已不成立. 4.贝叶斯信念网络贝叶斯网络用图形表示一组随机变量之间的概率关系,有两个主要成分:一个有向无环图,表示变量之间的依赖关系.一个概率表,把各结点和它的直接父结点关联起来. 贝叶斯网络有一个重要的性质如下: 性质1 条件独立贝叶斯网络中的一个结点,如果它的父母结点已知,则它条件独立于它的所有非后代结点. 除了网络拓扑结构要求的条件独立性外,每个结点还关联一个概率表: *如果结点X没有父母结点,则表中只包含先验概率P(X). *如果结点X只有一个父母结点Y,则表中包含条件概率P(X|Y). *如果结点X有多个父母结点{Y1,Y2,...,YK},则表中包含条件概率P(X|Y1,Y2,...,YK).

数据出境研究所

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
1
评论
数据挖掘－分类：其它技术（一）

分类:其它技术一.基于规则分类器基于规则的分类器是使用一组"if...then..."规则来分类记录的技术.基于规则的分类器产生一个模型,该模型的规则用析取范式R=(r1Vr2Vr3V...rk)表示,其中R称作规则集,而ri是分类规则或析取项.每一个分类规则可以用如下表示:ri=(条件i)->yi,左边称为规则前件或前提,它是属性的合取:条件i=(A1 op V1)and(A2 op V
复制链接

扫一扫