数据变换
标准化
数据标准化主要功能就是消除变量间的量纲关系,从而使数据具有可比性
0-1标准化:将数据变换入0-1之间
x=[1 2 3 4 5 ]; [Y,PS]=mapminmax(x,0,1)
Z标准化:经过处理的数据符合标准正态分布,即均值为0,标准差为1,
x=[1 2 3 4 5 ]; zscore(x)
离散化
为什么需要离散化?有三个原因。一是算法需要,二可以克服数据中的缺陷,排除异常值极端值影响,三有利于对非线性关系进行诊断或者描述,
数据统计
基本描述性统计
除平均数、中位数外,
- 表示数据散度的统计量有标准差、方差、极差(max-min)
range(x)
- 表示分布形状的统计量有:偏度(大于0右偏态,=0对称,小于0反之)
skewness(x)
、峰度(=3正态分布,>3说明分布散)kurtosis(x)
分布描述性统计
概率分布函数和概率密度函数
数据可视化
基本和分布可视化
plot(x