数据挖掘入门

最新推荐文章于 2023-04-05 19:29:19 发布

网站不知名写手柠乐同学

最新推荐文章于 2023-04-05 19:29:19 发布

阅读量343

点赞数

分类专栏：笔记文章标签：数据挖掘

本文链接：https://blog.csdn.net/kyra1997/article/details/105079628

版权

笔记专栏收录该内容

69 篇文章 4 订阅

订阅专栏

预测数据、描述数据

预测性挖掘：
对当前数据进行推断，以做出预测。预测主要包括分类、回归。
分类：将样本划分到几个预定义类，属于离散。
回归：将样本映射到一个真实值预测变量上，连续值。
描述数据
描述数据库中数据的一般性质。聚类：将样本划分为不同类(无预定义类)，关联规则发现——发现数据集中相关性。聚类分析，在发现紧密相关的观测值组群，可以在没有标签的情况下将所有的数据分为合适的几类来进行分析或者降维。异常检测，聚类将相似的数据聚合在一起，而异常检测将离群太远的点给剔除。

主要方法

1.神经网络方法
神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题。
2.遗传算法
遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法，是一种仿生全局优化方法。遗传算法具有的隐含并行性、易于和其它模型结合等性质使得它在数据挖掘中被加以应用。
3.决策树方法
决策树是一种常用于预测模型的算法，它通过将大量数据有目的分类，从中找到一些有价值的，潜在的信息。它的主要优点是描述简单，分类速度快，特别适合大规模的数据处理。
4.粗集方法
粗集理论是一种研究不精确、不确定知识的数学工具。粗集方法有几个优点：不需要给出额外信息;简化输入信息的表达空间;算法简单，粗集处理的对象是类似二维关系表的信息表。
5.覆盖正例排斥反例方法
它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。首先在正例集合中任选一个种子，到反例集合中逐个比较。与字段取值构成的选择子相容则舍去，相反则保留。按此思想循环所有正例种子，将得到正例的规则(选择子的合取式)。
6.统计分析方法
在数据库字段项之间存在两种关系：函数关系和相关关系，对它们的分析可采用统计学方法，即利用统计学原理对数据库中的信息进行分析。可进行常用统计、回归分析、相关分析、差异分析等。
7.模糊集方法
即利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。系统的复杂性越高，模糊性越强，一般模糊集合理论是用隶属度来刻画模糊事物的亦此亦彼性的。

挖掘步骤

数据挖掘的基本步骤
1.解读需求
2.搜集数据
3.预处理数据
4.评估模型
5.解释模型

网站不知名写手柠乐同学

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘入门

预测数据、描述数据预测性挖掘：对当前数据进行推断，以做出预测。预测主要包括分类、回归。分类：将样本划分到几个预定义类，属于离散。回归：将样本映射到一个真实值预测变量上，连续值。描述数据描述数据库中数据的一般性质。聚类：将样本划分为不同类(无预定义类)，关联规则发现——发现数据集中相关性。聚类分析，在发现紧密相关的观测值组群，可以在没有标签的情况下将所有的数据分为合适的几类来进行分析或者...
复制链接

扫一扫