数据挖掘
1.数据挖掘:从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程。
(商业定义)按企业即定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或已知的规律,并进一步将其模型化的先进的有效方法。
2.数据挖掘的功能:描述和预测。
描述:刻画了数据库数据的一般特性;
预测:在当前数据上进行分析,以此进行推断。
1)概念描述:通过对某类对象关联数据的汇总、分析和比较,对此类对象的内涵进行描述,
并概括这类对象的有关特征。
2)多层次概念描述:将低层次概念集映射到高层次概念集的方法。
3)关联分析:目的是找出数据库中隐藏的关联网。
4)聚类:将物理或抽象对象的集合分组成为由类似的对象组成的多个类的方法。
5)分类:从数据库对象中发现共性,并将数据对象分成不同类别的一个过程。
6)偏差检测:偏差检测的基本方法是寻找观测结果与参照值之间有意义的差别。
7)孤立点分析:对于数据的一般行为或模型不一致的数据进行分析。
8)自动预测趋势和行为:针对具有时序属性的数据或者是序列项目的数据。
9)时序演变分析:寻找事件或对象行为随事件变化的规律或趋势,并以此来建立模型。
10)信息摘要:一种自动编制文摘的技术,即利用计算机将一篇文章浓缩成一篇短文的过程。
11)信息抽取:根据一个事先定义好的、描述所需信息规格的模板,从非结构化的文本中抽
取相关信息的过程。
12)元数据挖掘,对元数据进行挖掘。
3.数据挖的掘步骤:
1)确定业务对象;
2)数据准备
c)数据的转换
a)数据的选择
b)数据的预处理
3)数据挖掘,对所得到的经过转换的数据进行挖掘。
4)结果分析,解释并评估结果;
5)知识的同化,将分析所得到的知识集成到业务信息系统的组织结构中去。
4.数据挖掘的人员:
1)业务分析人员,要求精通业务,能够解释业务对象,并根据各业务对象确定用于数据定义和挖掘算法
的业务需要;
2)数据分析人员,精通数据分析技术,并对统计学有较熟练的掌握,有能力把业务需求转化为数据挖掘
的各步操作选择合适的技术;
3)数据管理人员,精通数据管理技术,并从数据库仓库中收集数据。
5.数据挖掘与传统的数据分析的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识的,因此数据挖掘所得到的信息应具有先前未知、有效和实用性三个特征。
1)关系数据库,是信息最丰富的数据源;
2)数据仓库,是数据挖掘良好的数据源,数据挖掘为数据仓库提供了有效的分析处理手段;
3)文本数据库,所记载的内容均为文字,为非结构化;
4)复杂类型的数据库,是指非单纯文本的数据库或能够表示动态序列数据的数据库,主要分为