这一部分就是讲数据的分析方法。要想分析数据,就先要对数据进行描述归纳。主要分为描述性数据挖掘和预测性数据挖掘。
描述性数据挖掘就是简单描述数据,给出数据性质,常用泛化的方式进行(俗称口胡)。
预测性数据挖掘是对数据建模,预测新数据的行为。
描述性数据挖掘之后常伴随预测性数据挖掘。
概念描述是是描述性数据挖掘的一种最简单的类型。(真·口胡,常用方法是泛化和比较)
数据泛化和基于汇总的特征化描述
数据泛化:低层次转高层次(拔高了说,paper容易过审,雾),青年、中年代替实际年龄数
面向属性的归纳:数据库查询,属性统计然后泛化,合并相等的集合,作图作表。
属性相关分析:相关程度分析,用统计方法作数据预处理。
基于汇总的特征化描述:其实就是那些标志性数据代替整体
最后,还可以用图形的方法显示数据。典型的有直方图、分位数图、散点图、回归曲线等。
探索性数据分析
探索性数据分析(Exploratory Data Analysis,EDA)是指对已有数据在尽量少的先验假设下通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。EDA强调让数据自身“说话