数据挖掘的概念

最新推荐文章于 2023-12-31 01:09:47 发布

sunByFeng

最新推荐文章于 2023-12-31 01:09:47 发布

阅读量868

点赞数 1

分类专栏：数据挖掘

本文链接：https://blog.csdn.net/qq_23211905/article/details/78648652

版权

数据挖掘专栏收录该内容

4 篇文章 0 订阅

订阅专栏

数据挖掘基本功能主要体现在分类与回归、聚类分析、关联规则、时序模式、异常检测等5个方面。

分类与回归：分类是“有监督的学习”。分类过程由两步构成，模型创建和模型使用。模型创建是指对训练数据集的学习来建立分类模型；模型使用是指使用分类模型对测试数据和新的数据进行分类。通常分类模型以分类规则、决策树或数学表达式给出。
聚类分析：“无监督的学习”。聚类是将数据划分或者分割成2相交或者不想交的群组的过程。通过确定数据之间在预先指定的数学上的相似性就可以完成聚类任务。
关联规则：揭示数据间的相互关系，而这种庴没有在数据中直接表示出来，关联分析就是发现事物间的关联规则。
时序模式：用于描述基于时间或者其他序列的经常发生的归类或趋势，并对其建模。与回归一样，它是用已知的数据预测未来的值，但是这些数据的区别是遍历所处的时间的不同。其重点考虑数据之间在时间维度上的关联性，包含时间序列分析和序列发现。
异常检测：离群点检查，用来发现与正常情况不同的异常和变化，并进一步分析这种变化是有意的欺骗还是正常行为。

数据挖掘的一般流程：明确问题、数据收集和预处理、数据挖掘以及结果解释和评估。

数据仓库：用于支持企业或者组织的经营管理中决策分析处理的，面向主题的、集成的、文档的、随时间不断变化的数据集合。
主题性：数据仓库的所有数据都是围绕某一个主题住址展开的。主题是一个在较高层次归类数据的标准，每个主题一般对应一个宏观分析领域。
集成性：数据仓库的数据不是从各个业务处理系统中简单收集而来，而是根据决策分析的要求，将分散于各处的元数据在抽取、筛选、清理的基础上，进行系统架构、汇总、综合等集成公司。
稳定性：最根本特征是存放数据，而且这些数据不是最新的，而是来源于其他数据库并经过抽取和集成的。
时变性：数据随着时间的推移而发生变化。

数据预处理：现实世界的数据大多是不完整、不一致的脏数据，无法直接进行数据挖掘，或挖掘结果不能令人满意。为了提高数据挖掘的质量，因此需要进行数据处理。数据处理包括：数据清理、数据集成、数据变换、数据归约等。

数据清理方法：
缺失数据处理方法：1、数据挖掘者和领域专家手动检查缺失值样本，根据经验加入一个合理的、可能的、预期的值。
2、(1)用一个全局常量（全局常量的选择与应用有很大关系）替换所有缺失值。
(2)用特征平均值替换缺失值。
(3)用给定种类的特征平均值替换缺失值。
缺点：替代者并非正确值。
噪声数据平滑技术：简答的平滑方法即是计算类似测试值的平均值。
时间相隔数据的处理：在实际数据挖掘应用范围包括时间强相关、时间弱相关和时间无关。考虑数据的时间问题多用时间窗处理。

数据集成：数据集成将多个数据源中的数据结合起来存放在一个一致的数据存储(数据仓库)中。
数据冗余和相关性分析方法：标称数据的相关性校验、数据的相关系数(Pearson)、数值数据的协方差。

数据标准化：1、小数缩放：移动小数点，保留大多数原始数据值。2、最小-最大标准化：使值在整个标准化区间如[0-1]获得较好的分布。3、标准差标准化：v=(特征值-平均值)/标准差

数据离散化方法：离散化技术可以用来减少给的联系属性值的个数。
1、分箱方法：通过考察“邻居”来平滑存储数据的值。
2、直方图分析
3、基于熵的离散化：熵是一种基于信息的度量，可以用来递归地划分数值属性A的值，产生分层的离散化。
方法：
1)A的每个值可以认为是一个潜在区间边界或阀值T。例如A的值v可以将样本S划分成两个子条件的A<v或者A>=v两个子集，创建了一个二元离散化。
2)给定S,所选择的阀值使其划分得到的信息增益最大。信息增益是
I(S,T)=(|S1|/|S|)Ent(S1)+(|S2|/|S|)Ent(S2)，其中S1和S2分别对应于S中满足条件A<T和A>=T的样本。
给定m个类，S1的熵是：Ent(S1)=-$\sum_{i=1}^m pi Logpi。其中pi是类i在S1中的概率。

sunByFeng

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
数据挖掘的概念

数据挖掘基本功能主要体现在分类与回归、聚类分析、关联规则、时序模式、异常检测等5个方面。分类与回归：分类是“有监督的学习”。分类过程由两步构成，模型创建和模型使用。模型创建是指对训练数据集的学习来建立分类模型；模型使用是指使用分类模型对测试数据和新的数据进行分类。通常分类模型以分类规则、决策树或数学表达式给出。聚类分析：“无监督的学习”。聚类是将数据划分或者分割成2相交或者不想交的群组的过程。通
复制链接

扫一扫

专栏目录