1、知识发现过程
数据清理--->数据集成-->数据选择-->数据变换-->数据挖掘-->模式评估-->知识表示
2、数据预处理
数据清理:现实的数据往往是“脏”的,不完整、不一致的,因此必须清理。清理的内容包括填充空缺值、识别孤立点、消除杂音并纠正数据的不一致性。
数据归纳:有是用于挖掘的数据量特别大,数据挖掘时间很长,这使数据挖掘成为不可能的可能性,所以要进行数据的归约,将大量的数据压缩成可接受范围的数据,并要原 数据的完整和有效。
数据集成及变换:数据挖掘往往需要多个不同的数据,因此需把它们通过变换、抽取,集成统一的数据平台工挖掘之用。
离散化和概念提升:要进行挖掘的数据中往往有的数据属性呈连续值,而有的属性虽然呈离散状态但域值多,不利于分析和挖掘,故需对连续值作离散化处理,而对属性中过 于密集的离散值作概念提成,即用更概括的值取代属性中过多的值。