本文讲解数据挖掘中的基本概念:
一、数据挖掘:
数据挖掘(KDD,knowledge discovery in database):数据库中发现知识。
- 数据清理:消除噪声和删除不一致数据。
- 数据集成:多种数据源可以组合在一起。
- 数据选择:从数据库中提取与分析任务相关的数据。
- 数据变换:通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式。
- 数据挖掘:基本步骤,使用智能方法提取数据模式
- 模式评估:根据某种兴趣度度量,识别代表知识的真正有趣的模式。
- 知识表示:使用可视化和知识表示技术,向用户提供挖掘的知识。
步骤1-4是数据预处理的不同形式,为挖掘准备数据。
二、数据类型:
数据的最基本形式是数据库数据、数据仓库数据和事务数据。
- 数据库数据:数据库系统,也称为数据库管理系统(DBMS),由一组内部相关的数据(数据库)和一组管理和存取数据的软件程序组成。软件程序提供如下机制:定义数据库结构和数据存储,说明和管理并发、共享或分布式数据访问,面对系统瘫痪或未授权访问,确保存储的信息的一致性和安全性。关系数据库是表的汇集,每个表都被赋予一个唯一的名字。每个表都包含一组属性(列或字段)