数据的中心趋势度量:
平均值(受极端影响,可通过计算截断均值减少极端值的影响):
中位数:
众数:
一组数据中出现数据最多的值叫众数,有时众数不止一个,有一个、两个或三个的数据集分别称为单峰、双峰和三峰数据集,有两个及以上众数的数据集统称为多峰数据集
中列数(受极端值影响):
最大值和最小值的平均值。
数据的离散趋势度量:
极差与分位数(分位数常用四分位数、十分位数和百分位数):
极差又称全距,是指一组数据集观测值中的最大值和最小值之差。
分位数是指将所有过程中按递增顺序排列,如何将数据划分为大小基本相同的连续集合每隔一段距离取数据分布上的一个数据点,这个数据点就叫做数据集的分位数。假设一个将数据集划分为k个部分,那么就有k-1个数据点。
四分位极差:
五数概括与盒图:
五数:中位数、四分位数的和、最大和最小观测值。
盒长=IQR
方差和标准差:
设属性X有N个观测值,其方差为:
是观测值的均值,标准差为方差的算术平方根。
对象相似性计算方法:
欧式距离(两点直线距离)
曼哈顿距离(实际距离)
缺失值常见处理方法:
①直接删除缺失值。
②人工填写。
③使用全局常量填充缺失值。
④使用属性的中心趋势度量值填充缺失值。
⑤使用与给定元组属于同一类的所有样本的属性均值和中位数填充。
⑥使用最有可能的值填充。
识别离群点和平滑噪声数据:
①分箱法
等深分箱:不同的箱里有相同个数的数据。
等宽分箱:将变量的取值范围分为k个等宽的区间,每个区间作为一个分箱。
等频分箱:把观测值按照从小到大的顺序排列根据观测值的个数等分为k部分,每部分当作一个分箱。
基于k均值聚类的分箱:使用k均值聚类法将观测值聚为k类,但在聚类过程中需要保证分箱的有序性,即在第一个分箱中的所有的观测值都要小于第二个分箱中的观测值,第二个分箱中的所有观察值都要小于第三个分箱中的观测值等。
使用分箱法后,可以使用光滑技术对离群点和噪点进行光滑(用箱平均值光滑、用箱中位数光滑、用箱边界光滑)
②回归
一元线性回归分析和多元线性回归分析。
数据规范化:
最小-最大规范化、Z-score规范化和按小数规范化