使用svm对光学字符数据进行分类_基于决策树的监测数据分类方法

基于决策树的监测数据分类方法

在第一节中论述了监测数据的传统处理方法,它适用于一般公路桥梁的健康监测与安全评估,但针对本文研究对象——轨道斜拉桥则需要在传统数据处理方法的基础上进行调整,即在进行数据预处理之前先对数据进行分类,才能确保实测数据对桥梁进行安全性评估的价值,避免有效数据在传统数据预处理方法中提前被剔除。

1 分类技术

①分类的基本概念

分类(Classification)算法是一种重要的数据挖掘技术,一直受到研究数据挖掘技术学者的关注,它是一种有监督的学习,通过对已知类别训练集的分析,从中发现分类规则,以此预测新数据的类别。分类是要建立已知现存类别的描述规则,并按照这种规律将新的观察值重新判别归类到其中每一项中去。

e1b5f8987a3c36aebf083912a23961e4.png

目前,许多研究者从专家系统、统计学和神经生物学等不同研究角度提出了适用于不同领域的分类算法,使得分类算法技术在实际应用中得到广泛推广和科学认证。

②常见的分类算法及各自特点

不同的分类算法有不同的特性,适用于不同的实际任务,而每种分类算法的效果通常与被研究数据样本的特点有关,有的数据有缺损,有的数据噪声过大,有的数据分部稀疏,有的数据属于离散型,而有的则属于连续型、甚至混合型。所以,根据具体的实际问题,寻找合适的分类算法是实际应用中亟待解决的问题。数据挖掘技术中运用的分类算法有多种,下文主要描述决策树、支持向量机、贝叶斯、统计学以及神经网络等分类算法的特性。

1)决策树(Decision Tree)分类算法

决策树算法是数据挖掘领域研究分类问题最常采用的方法,其原因有三:一是决策树构造的分类器易于理解,二是采用决策树分类,其速度快于其它分类方法,三是采用决策树的分类方法得到的分类准确性优于其它方法。利用决策树分类通常分为两步一生成树和剪枝。树的生成釆用自上而下的递归分治法,而剪枝则是剪去那些可能增大树的错误预测率的分枝。目前,决策树算法通过启发式属性选择策略来实现。决策树分类算法对噪声数据有很好的健壮性,能够学习析取表达式,是最为广泛使用的分类算法之一。

2)支持向量机(Support Vector Machine)分类算法

它是基于结构风险最小化准则的机器学习算法,使用数学方法和优化技术,具有优良的性能指标。SVM算法用于数据预处理、样本化等KDD的过程,可以提高学习机的泛化能力。SVM算法选择和保存有用的训练数据即支持矢量,该算法先自动找出对分类有较好区分能力的支持矢量,然后构造出分类器来最大化类与类的间隔,因此有较好的适应能力和较高的分准率;借助SVM,类所属方法的分类准确度得到了很大提高并且时间复杂度得到了降低,大型数据库中小样本的训练数据的计算复杂度也得到了降低。从理论上讲,SVM算法解决了在神经网络算法中无法避免的局部最小化问题,但在处理大规模数据集时,SVM速度慢,往往需要较长的训练时间。

3)贝叶斯(Bayes)分类算法

1e8557ea91198f41c157c5a17926e94c.png

贝叶斯分类算法的关键是使用概率表示各种形式的不确定性。理论上,贝叶斯算法对于大型数据集的分类具有较大优势,其精确度高,运算速度快,错误率低,但由于贝叶斯分类算法依赖的条件独立性假设太过理想化,而实际运用中的数据很少能够满足,故在实践中并不能达到理论研究时的效果,分类准确率会存在一定的下降。

4)神经网络(Neural Network)分类算法

神经网络以生物神经系统为基础,模仿人脑在处理问题过程中的复杂决策信息处理理论技术。原理是它主要基于神经科学、统计学、数学、物理学、计算机科学与工程学等理论,是从人脑的生理结构出发来研究人的智能行为,模拟人脑信息处理的功能。

它一般分为前向型、反馈型、随机型和自组织型四种类型。前馈神经网络从输入值来计算输出值,其网络拓扑结构是用作预测和分类的典型网络,具有较好的学习能力、适应能力、抗干扰能力和伸缩性,广泛地运用到智能计算、数据挖掘、组合优化求解、模式分类、机器视觉、机器听觉、机器人控制、信号处理、医学诊断等领域。实现方法是由许多处理单元(神经元)相互连接组成,按照一定的连接权获取信息的联系模式,根据一定的学习规则,实现网络的学习和关系映射。神经网络以其学习能力,非线性变换型和高度的并行运算能力,对新输入的泛化能力和对噪声的容错处理能力,对系统(尤其是非线性系统)的辨识等提供了一条非常有效的途径。神经网络分类算法的神经网络在具有很广泛的应用。

神经网络具有良好的非线性映射能力和对任意函数的准确逼近能力,用于分类问题往往能获得很高的分类精度,因而被公认为分类性能较好的分类方法之一,但神经网络结构难以确定,其结构好坏直接影响到网络的性能,而且训练周期时间长,训练过程中的实现可能出现陷入局部最优解,对多维数据分析困难,针对神经网络后续出现的问题,许多学者提出了很多方面的改进方法,主要从参数选取、BP算法、激活函数和网络结构上对其加以优化。

经典的分类算法在不同的领域都获得广泛的运用,例如:决策树分类算法常用于金融分析、医疗诊断、评估信用风险等领域;支持向量机分类算法应用于基

因分析、文本分类、语音识别、回归分析等领域;神经网络分类算法由于其对噪声数据具有很好的承受和辨别能力,则被广泛应用到字符识别、分子生物学、人脸识别等领域。但每种分类算法都存在优缺点,加上数据的多样性以及实际问题的复杂性,基于目前的分类算法技术研究水平仍然不能明确认定哪一种算法具有绝对的优势,使用者可以由准确率、速度、健壮性、可伸缩性、可解释性等几个标准来衡量各种分类算法的好坏,从而选择适合项目研究的具体方法。

③分类的过程

分类过程是先建立分类模型,然后将其用于对未分类数据进行分类。整个分类过程大体经过两步:分类模型的建立和对数据的预测分类操作。分类模型的建立简单来讲就是通过训练数据集来形成一个类别预测映射函数,使该函数能够在接下来的对测试数据集进行正确可靠的分类预测。下图所示为分类算法的两个过程:

57a06bc28b64a23c5a78df940b12f690.png

在分类算法的这两个阶段中,第一阶段构建分类模型是重点,其构造方法多种多样,常用的有决策树模型、统计模型、神经网络模型、遗传算法等,分类模型构造的好坏直接决定着分类效果的优劣,构建一种科学的分类模型可以获得合理的分类结果,从而使后续的数据处理工作事半功倍。

2 决策树算法

①决策树算法概述

决策树算法最早源于20世纪60年代研究概念建模时建立的CLS(ConceptLearningSystem)学习系统,到70年代末引入信息论的思想,选择属性作为决策树的节点,并将思路嵌入迭代程序之中,随后又提出CHAID算法、CART算法、ID4算法、ID5算法、直到现在运用的C4.5、C5.0算法。正是决策树算法具有操作简单、对噪声数据稳定性好、数据分析能力出色和直观易懂的结果展示等特点,现在己成为最为广泛的分类预测算法之一。

决策树就是一个类似流程图的倒立树型结构,其中树的每个内部结点代表对一个属性(取值)的测试,其分支就代表钡赋的每个结果。为了对未知数据对象进行分类识别,可以根据决策树的结构对数据集中的属性值进行测试,从决策树的根结点到叶结点的一条路径就形成了对相应对象的类别预测。另外,与很多同样可以实现分类预测的算法相比,决策树算法的最大特点是,它的分类预测是有逻辑性的,即通过对输入变量取值的逻辑运算(布尔运算)实现对输出变量的分类预测。

②决策树的构建

决策树分类算法是一种贪婪算法,其构造采用自上而下、分而制之的递归方式,在每个结点选择分类效果最好的属性对输入数据进行分类,随着从根到节到枝的不断深入将最初的样本集递归的划分为较小的子集,一直重复这一过程直到所有输入样本数据被准确地分类或所有的属性都已被使用过。树根、节点、树枝、树叶之间形成的路径都与某一种关联规则对应,而整棵决策树形成了一套完整的关联体系。如图3-2所示为决策树分类算法的流程图:

1f08da816dbdbb8ea97ba9b1d2427dc6.png

③决策树构建实例

决策树通常被分为分类决策树和回归决策树两类,分类决策树实现对分类型输出变量(离散变量)的分类,回归树则完成对数值型输出变量(连续变量)的预测。分类或预测的结果均体现在决策树的叶节点上。分类树叶节点所含样本中,其输出变量的众数类别就是分类结果;回归树叶节点所含样本中,其输出变量的平均值就是预测结果。因此,对新数据进行分类预测时,只需按照决策树的层次,从根节点开始依次对新数据输入变量值进行判断并进入不同决策树分枝,直至叶生点为止。

根据决策树的构建流程,我们可以描述一个购买房屋的分类模型,如下图所示为分类决策树的实例,它利用年龄、身份等标准来预测样本数据是否会购买房屋。从树根到树叶的路径一共有六条,就形成了六条分类规则:

规则一:IF(年龄<30)且(学生=是)THEN不会购买房屋;

规则二:IF(年龄<30)且(学生=否)THEN会购买房屋;

规则三:IF(年龄=30到50)且(信用评级=良好)THEN会购买房屋;

规则四:IF(年龄=30到50)且(信用评级=一般)THEN不能会购买房屋;

规则五:IF(年龄>50)且(退休=是)THEN不会购买房屋;

规则六:IF(年龄>50)且(退休=否)THEN会购买房屋。

5071ce2540b803fe692fbe57b1d000ba.png

《来源科技文献,经本人分析整理,以技术会友,广交天下朋友》

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值