一、数据挖掘的概述
1.数据挖掘概念与发展
随着科学技术的飞速发展,使得各个领域或组织机构积累了大量数据。如何从这些数据中提取有用的信息和知识以帮助做出明智决策成为巨大的挑战。计算机技术的迅速发展使得处理并分析这些数据成为可能,这种技术就是数据挖掘( Data Mining , DM ),又称为数据库知识发现( Knowledge Discovery in Database , KDD )。
数据挖掘概念首次出现在1989年举行的第11届国际人工智能学术会议上,其思想主要来源于机器学习、模式识别、统计和数据库系统。目前对数据挖掘并没有统一的定义,大多采用的是韩家炜先生给出的定义:
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程。
上述定义的含义有以下几个方面:
第一,数据源必须是大量的、真实的,真实的数据往往含有噪声或缺失。
第二,发现的是用户感兴趣的知识。
第三,发现的知识要可接受,可理解,可运用,能支持特定的问题发现,能够支持决策,可以为企业带来效益,或者为科学研究寻找突破口。
2.数据挖掘的任务
数据挖掘的任务可以分为预测型任务和描述型任务,预测型任务就是根据其他属性的值预测特定属性的值,如回归、分类、离群点检测等。描述型任务就是寻找、概括数据中潜在联系的模式,如聚类分析、关联分析、演化分析、序列模式挖掘。
3.数据挖掘的应用
数据挖掘就是为大数据而生的,有大量数据的地方就有数据挖掘的用武之地。目前,应用较好的领域或行业有生物信息学、电信业、零售业以及保险、银行、证券等金融领域。
生物信息学是数