空间数据挖掘在获取数据后第一件事情就是对数据进行预处理。
预处理原因:数据质量差
-
数据不完整
-
噪声
-
不同数据源获取的统一数据不一致
而高质量的数据才有高质量的结果,预处理目的有两个,提高数据质量,加快挖掘信息的速率。
预处理的主要任务有:
-
数据清理:填空缺,去噪声(这两个一般用插值),识别或删除离群值(与实际情况偏离较大但是不是噪声的有用点),解决不一致(看数据的可靠性之类的)
-
数据集成:集成到数据库,数据立方体(逻辑上等同于EXCEL数据透视表),文件
-
数据归约:数据集简化的表示,理解为小数据集,能得到大数据集相同或相似的结果。主要方法有给出特征子集(就是删多余数据),主成分分析。
-
数据变换:规范化。
-
数据离散化:离散化数据,概念分层。各种划分方法:分级,直方图,聚类,决策树~
具体处理不说了,一般来说就是常规统计方法和线性平滑。
新出来的概念大概是数据库、数据仓库和数据立方体。
数据仓库:一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策过程。