作者:杨永钰
摘要:数据挖掘包括分类、聚类、回归、关联、序列和偏差模式的识别,读书报告重点复述了分类、聚类模式。数据挖掘技术的常用方法:包括模糊理论、粗糙集理论、云理论、证据理论、人工神经网络、遗传算法以及归纳学习。
关键词:数据挖掘;聚类;分类;关联
1.前言
数据挖掘是通过仔细分析大量数据来揭示有意义的新的关系、趋势和模式的过程。
数据挖掘是数据库中知识发现的核心步骤(如下图所示),发现了隐藏的模式,所以从模式处理的角度,许多人认为两者是等同的。
2.数据挖掘的模式
2.1分类模式(Classification)
分类就是构造一个分类函数(分类模型),把具有某些特征的数据项映射到某个给定的类别上.该过程由2步构成:模型创建和模型使用。模型创建是指通过对训练数据集的学习来建立分类模型;模型使用是指使用分类模型对测试数据和新的数据进行分类。
其中的训练数据集是带有类标号的,也就是说在分类之前,要划分的类别是已经确定的。通常分类模型是以分类规则、决策树或数学表达式的形式给出的。
2.1.1分类步骤
第一步,是建立分类模型,描述预定的数据类集或者概念集。通过分析有属性描述的数据库元组来构造模型。通常,这样的分类模型用分类规则集、决策树或者数学公式的形式给出。
第二步,是使用分类对新的数据集进行划分,主要涉及分类规则的准确性、过分适合、矛盾划分的取舍等。一个好的分类规财集合应该是对新的数据集而言具有很高的准确性、尽可能少的矛盾划分以及较小的规则集。
2.1.2算法
决策树、关联规则、贝叶斯、神经网络、规则学习、k一临近法、遗传算法、粗糙集以及模糊逻辑技术等。其中决策树算法及基于关联规则的分类算法是本节论述的重点,对其他一些算法只作简单介绍。
决策树算法:决策树算法的类型主要有基于决策树归纳、强调在数据挖掘中可伸缩性的决策树算法、决策树归纳属性选择度量比较。
ID3算法是较早也是最著名的决策树归纳算法。
该算法优点是描述简单、分类速度快,特别适合大规模的数据处理。
存在的主要问题