数据收集以及数据存储技术的提高,方便了人们收集到大量的数据,而传统的数据分析方法不能对海量的数据提取处有用的信息。再次背景下,新的数据挖掘技术诞生。数据挖掘作为一种技术,是将传统的数据分析方法与处理大量数据的复杂算法相结合。
数据挖掘在商业以及医学、科学及工程中有很重要的运用。
一、什么是数据挖掘
数据是在大型的数据存储库中,自动发现有用信息的过程。数据挖掘技术可以识别数据中有用的位置模式,可以用来预测未来结果。
并不是所有的信息发现任务都是数据挖掘,在数据库中检索信息是属于数据检索。
数据挖掘是数据库中知识发现中不可缺少的一部分。从数据预处理到数据处理再到数据的后处理。
数据预处理的目的是将未加工的数据转换程适合分析的数据形式。
结束数据循环通常需要将数据挖掘中的结果集成到决策支持系统中。
二、数据挖掘需要解决什么问题
可伸缩性
高维性
异种数据和复杂数据
数据的所有权与分布
非传统的分析
三、数据挖掘任务
预测任务:根据其他属性值,预测特定属性值
描述任务:到处概括数据中潜在的联系的模式
预测建模
聚类分析
关联分析
异常检测