数据挖掘概述

数据挖掘是提取海量数据中隐藏信息的过程,涉及数据库技术、机器学习等多个领域。其特性包括应用性、工程性和集合性。数据挖掘过程包括业务理解、数据理解、数据准备、数据建模、模型评估和部署六个阶段。常见挖掘对象包括关系型数据库、数据仓库、空间数据等。

一、数据挖掘的概念

●数据挖掘(DM,Data Mining),是从大量的、有噪声的、不完全的、模糊和随机的数据中,提取出隐含在其中的、人们事先不知道的、具有潜在利用价值的信息和知识的过程。

●数据挖掘是一个交叉学科,设计数据库技术、机器学习、统计学、人工智能、模式识别、高性能计算、知识工程、神经网络、信息检索、信息的可视化等众多领域。

●常见的数据挖掘的对象有以下七大类:
(1)关系型数据库、事务型数据库和面向对象的数据库。
(2)数据仓库/多维数据库:
将数据存放在一个n维数组中,而不是像关系数据库那样以记录的形式存放。因此它存在大量稀疏矩阵,人们可以通过多维视图来观察数据。
(3)空间数据(如地图信息)。
(4)工程数据(如建筑、集成电路信息)
(5)文本和多媒体数据。
(6)时间相关数据。
(7)万维网。

二、数据挖掘的特性

在大数据时代,数据的产生和收集是基础,数据挖掘是关键。

(1)应用性:数据挖掘是理论算法和应用实践的完美结合。数据挖掘来源于应用实践,也服务于应用实践。
(2)工程性:数据挖掘是一个由多个步骤组成的工程化过程。且在实际应用中,典型的数据挖掘还是一个交互和循环的过程。
(3)集合性:数据挖掘是多种功能的集合。常用的数据挖掘功能包括数据搜索分析、关联规则挖掘、时间序列模式挖掘、分类预测、聚类分析、异常检测、数据可视化和链接分析等。一个具体的案例往往涉及多个功能,不同的功能通常有不同的理论和技术基础,且每一个功能都有不同的算法。

三、数据挖掘的过程

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值