关于数据挖掘的文献综述

作者:杨永钰

 

摘要:数据挖掘包括分类、聚类、回归、关联、序列和偏差模式的识别,读书报告重点复述了分类、聚类模式。数据挖掘技术的常用方法:包括模糊理论、粗糙集理论、云理论、证据理论、人工神经网络、遗传算法以及归纳学习。

 

关键词:数据挖掘;聚类;分类;关联

 

1.前言

数据挖掘是通过仔细分析大量数据来揭示有意义的新的关系、趋势和模式的过程。

数据挖掘是数据库中知识发现的核心步骤(如下图所示),发现了隐藏的模式,所以从模式处理的角度,许多人认为两者是等同的。

 

 

2.数据挖掘的模式

 

2.1分类模式(Classification)

分类就是构造一个分类函数(分类模型),把具有某些特征的数据项映射到某个给定的类别上.该过程由2步构成:模型创建和模型使用。模型创建是指通过对训练数据集的学习来建立分类模型;模型使用是指使用分类模型对测试数据和新的数据进行分类。

其中的训练数据集是带有类标号的,也就是说在分类之前,要划分的类别是已经确定的。通常分类模型是以分类规则、决策树或数学表达式的形式给出的。

 

2.1.1分类步骤

第一步,是建立分类模型,描述预定的数据类集或者概念集。通过分析有属性描述的数据库元组来构造模型。通常,这样的分类模型用分类规则集、决策树或者数学公式的形式给出。

第二步,是使用分类对新的数据集进行划分,主要涉及分类规则的准确性、过分适合、矛盾划分的取舍等。一个好的分类规财集合应该是对新的数据集而言具有很高的准确性尽可能少的矛盾划分以及较小的规则集。

 

2.1.2算法

策树、关联规则、贝叶斯、神经网络、规则学习、k一临近法、遗传算法、粗糙集以及模糊逻辑技术等。其中决策树算法及基于关联规则的分类算法是本节论述的重点,对其他一些算法只作简单介绍。

决策树算法:决策树算法的类型主要有基于决策树归纳、强调在数据挖掘中可伸缩性的决策树算法、决策树归纳属性选择度量比较。

ID3算法是较早也是最著名的决策树归纳算法。

该算法优点是描述简单、分类速度快,特别适合大规模的数据处理。

存在的主要问题

  • 6
    点赞
  • 71
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值