本文内容来自于由科学出版社出版,张文宇等著的《知识发现与智能决策》一书,有少量自己的内容。
一.知识发现是什么?
识别出存在于数据库中有效的、新颖的、具有潜在效果的乃至最终可理解的模式的非平凡过程。
将数据变成信息,信息变成知识,知识形成策略,策略构成智能的活动,从而指导人类有效地分析问题和解决问题。
二.数据形态,数据组织方式、知识发现的结果表示
数据形态:数字,符号,图形,图像,声音等
数据组织方式:结构化,半结构化,非结构化
知识发现的结果表示:规则,法则,科学规律,方程或语义网
三.数据集是一组事实F(如关系数据库中的记录),模式是一个用语言L来表示的一个表达式E,它可用来描述数据集F的某个子集FE,E作为一个模式要求它比对数据子集FE的枚举要简单(所用的描述信息量要少)。
四.知识发现的过程
1.数据准备:
(1)数据选取:根据用户的 需要从原始数据库(异构数据库http://baike.baidu.com/link?url=eVArs09wAMeP5nCrdxjcqOLgc_-1T65FS35EZhbnCwaAePL7bd67be3aHZEY6
10D4hqv1VrnyzYIgXlKFiXfrq和多源性数据文件)中抽取的一组目标数据
(2)数据预处理:消除噪声,推导计算缺值数据,消除重复记录,完成数据类型转换(如把连续值数据转化为离散型数据,以便于符号归纳&#