数据挖掘技术
(1)数据挖掘:
从数据中挖掘知识。包括数据清理(消除噪声、删除不一致数据)、数据集成(多种数据元集合一起)、数据选择(从数据库中提取与分析任务相关的数据)、数据变换(通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式)、数据挖掘、模式评估和知识表现(可视化表示技术)
(2)数据挖掘模式:
特征化与区分;频繁模式、关联规则与相关性;预测分析的分类与回归;聚类分析;离群点分析;
(3)使用技术:
统计学;机器学习;数据库系统与数据仓库;信息检索。
(4)数据挖掘的主要问题:
挖掘方法、用户界面、有效性和可伸缩性、数据库类型的多样性、数据挖掘与社会。
(5)认识数据:
属性、标称属性、二元属性、序数属性(有意义的序或者秩,比如大中小,满意一般不满意)、数值属性、离散属性与连续属性。
(6)数据类型:
包括:序列数据(时间序列数据、符号序列数据、生物学序列数据等)、图与网络(同质数据和异质数据)、其他类型数据(空间数据、时间空间数据、物流网系统数据、多媒体数据、文本数据、web数据、数据流)。
(6)数据的基本统计描述:
中心趋势度量:均值、中位数和众数。
度量数据散步:极差(最大值与最小值之差)、四分位数、方差、标准差、四分位数极差。
(7)数据可视化技术:
基于像素的可视化技术、几何投影可视化技术、基于图符的可视化技术、层次可视化技术、可视化复杂对象和关系。
(8)数据预处理;
数据质量包括:准确性、完整性、一致性、时效性、可信性和可解释性。
数据质量三个要素:准确性、完整性和一致性。
数据清理包括:缺失值处理(忽略、人工填写、全局常量、属性的中心度量均值等填充、同质同一属性均值、最可能值)、噪声数据(局部光滑、回归、离群点分析)。
数据清理先要进行偏差检测。
数据清洗工具、数据审计工具,数据迁移工具。