数据变换
简单变换
1、数据变换的目的是将数据转化为更方便分析的数据
2、简单变换通常使用函数变换的方式进行,常见的函数变换包括:开方,平方,对数等
数据规范化
1、离差标准化--消除量纲(单位)影响以及变异大小因素的影响(最小最大标准化)
x1 = (x-min) / (max-min) # 将大数据转为小数据
2、标准差标准化--消除单位影响以及变量自身变异影响。
x1 = (x-平均数) / 标准差 # 一半数据大于0,一半数据小于0
3、小数定标规范化--消除单位影响(除以10的倍数)
x1 = x/10**(k)
k = log10(x的绝对值的最大值)
离散化
1、等宽离散化,将属性的值分为相同宽度的区间
pd.cut() # 第一个参数是数据 第二个参数是区间 第三个参数是标签,每一份代表什么
2、等频率离散化,将相同数量的数据放入每个区间
3、一维聚类离散化,将连续的值通过聚类算法聚类,
属性构造
通过原属性得到新属性
数据规约
属性规约与数值规约概述
规约的核心就是精简
1、属性规约,
2、数值规约
主成分分析(属性规约)
PCA算法,主要用于数据的降维