关于数据挖掘的文献综述

最新推荐文章于 2023-12-27 17:59:47 发布

低端爬虫

最新推荐文章于 2023-12-27 17:59:47 发布

阅读量1.7w

点赞数 6

分类专栏：文献综述

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_33241390/article/details/75126596

版权

本文是关于数据挖掘的文献综述，重点讨论了分类和聚类两种模式。分类通过决策树、关联规则等算法将数据映射到预定义类别，而聚类则是非监督学习，自动寻找数据的内在结构。文中提到了模糊理论、粗糙集理论等多种数据挖掘方法，并指出每种算法有其特定的应用环境。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

作者：杨永钰

摘要：数据挖掘包括分类、聚类、回归、关联、序列和偏差模式的识别，读书报告重点复述了分类、聚类模式。数据挖掘技术的常用方法：包括模糊理论、粗糙集理论、云理论、证据理论、人工神经网络、遗传算法以及归纳学习。

关键词：数据挖掘；聚类；分类；关联

1.前言

数据挖掘是通过仔细分析大量数据来揭示有意义的新的关系、趋势和模式的过程。

数据挖掘是数据库中知识发现的核心步骤（如下图所示），发现了隐藏的模式，所以从模式处理的角度，许多人认为两者是等同的。

2.数据挖掘的模式

2.1分类模式（Classification）

分类就是构造一个分类函数（分类模型），把具有某些特征的数据项映射到某个给定的类别上.该过程由2步构成：模型创建和模型使用。模型创建是指通过对训练数据集的学习来建立分类模型；模型使用是指使用分类模型对测试数据和新的数据进行分类。

其中的训练数据集是带有类标号的，也就是说在分类之前，要划分的类别是已经确定的。通常分类模型是以分类规则、决策树或数学表达式的形式给出的。

2.1.1分类步骤

第一步，是建立分类模型，描述预定的数据类集或者概念集。通过分析有属性描述的数据库元组来构造模型。通常，这样的分类模型用分类规则集、决策树或者数学公式的形式给出。

第二步，是使用分类对新的数据集进行划分，主要涉及分类规则的准确性、过分适合、矛盾划分的取舍等。一个好的分类规财集合应该是对新的数据集而言具有很高的准确性、尽可能少的矛盾划分以及较小的规则集。

2.1.2算法

决策树、关联规则、贝叶斯、神经网络、规则学习、k一临近法、遗传算法、粗糙集以及模糊逻辑技术等。其中决策树算法及基于关联规则的分类算法是本节论述的重点，对其他一些算法只作简单介绍。

决策树算法：决策树算法的类型主要有基于决策树归纳、强调在数据挖掘中可伸缩性的决策树算法、决策树归纳属性选择度量比较。

ID3算法是较早也是最著名的决策树归纳算法。

该算法优点是描述简单、分类速度快，特别适合大规模的数据处理。

存在的主要问题

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。