数据库技术发展与用户需求对比:
进化阶段 | 支持技术 | 产品特点 |
---|---|---|
数据搜集(20世纪60年代) | 计算机、磁带和磁盘 | 提供历史性的、静态的数据信息 |
数据访问(20世纪80年代) | 关系型数据库 | 在记录级提供历史性的、动态的数据信息 |
数据仓库;决策树支持(20世纪90年代) | 数据分析处理,多维数据库、数据仓库 | 在各种层次上提供回溯的、动态的数据信息 |
数据挖掘(正在流行) | 高级算法、多处理器计算机、海量数据库 | 挖局数据中反映的内在规律 |
数据挖掘概念:
数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。
狭义的定义:数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性(属于Association rule learning)的信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
广义的定义:数据挖掘就是一个完整的知识发现,包括数据清理、建模、评估全过程。
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的应用数据中,提取出潜在并且有用的信息的过程。
数据挖掘的核心是利用算法·模型对预处理后的数据进行训练,训练后获得数据模型。
数据挖掘预知识发现:
1.确定知识发现的目标:这一步是确定知识发现的目的,要发现哪些知识。
2.数据采集:这一步是将可能与知识发现目标相关的数据采集到指定的系统中。
3.数据探索:探索主要包括数据特征的基本统计描述、数据特征间的相似、相同性等。(找到数据之间的关联性)
4.数据预处理:
(1)数据清洗:数据清理主要包括缺失值与异常值的清理(数据中可能会有错误的数据,需要找出然后处理)
(2)数据集成:讲多种数据源汇聚到一起,放在一个数据仓库的过程。(不同数据源可能存在一个实体丶不同属性)
(3)数据归纳:保证原始数据信息不丢失的前提下,减少分析使用的数据量。(从高维降到低维,特征提取)
(4)数据的变化是将原始的特征数据进行归一化和标准化的操作。
5:.数据挖掘(模型选择)
数据挖掘(模型选择)是对预处理后的数据进行挖掘的过程。分为有监督学习和无监督学习两种。
6.模型评估:对数据挖掘结果的评价,也是评价这个算法模式效果好与坏的标准。
数据挖掘的模型:
数据挖掘是根据具体的数据形式,使用数据挖掘技术完成目标的过程。描述性挖掘任务描述数据库中数据的一般性质;预测性挖掘任务对当前数据进行推断,然后做出预测。
1.类的概念:
类就是通过对某类对象关联数据的汇总、分析和比较,用汇总、简洁、精确的方式对此类对象的内涵进行描述,并概括这类对象的有关特征,这里的概念与类的含义相同。
(1)特征性描述:找到对象的共同特征。
(2)区别性描述。针对有可比性的分成两个或者多个类,描述不同对象的差异。
2.回归:
回归分析是确定两种或者两种以上变量间相互依赖的定量关系的一种统计学方法。
回归分析的过程就是寻找自变量和因变量之间的过程,
又一元回归和多元回归。
3分类:
根据事物在数据层面表现的特征,对事物进行科学的分类。
回归于分类的局别在于:回归可用于预测连续的目标变量,分类可用预测离散的目标变量。
4预测:
预测(Forecasting)是基于历史数据采用某种数学模型来预测未来的一种算法,即以现有数据为基础,对未来的数据进行预测。
5关联:
关联(Association)用来发现描述数据中强关联特征的模式。
当两个或者多个变量之间存在某种规律性,就称为关联,关联分析的目的是找出数据之间隐藏的关联关系。
6聚类:
聚类是一种理想的多变量统计技术。
讨论的对象是大量无标签的样本,要求能按样本的各自特征在无标签的情况下对样本进行分类,是在没有先验知识的情况下进行的情况下进行的。
7异常处理:
异常处理就是对异常的数据不要。