统计分析——数据的预处理
一. 数据的清洗
1. 数据清洗
A 异常值处理
I 删除
II 视为缺失值
III 平均值修正
IV 不处理
B 缺失值处理
I 删除
II 不处理
III 插补方法
a. 均值(mean)中位数(medium)众数(mode)
b. 使用固定值
c. 最近临插补:找与缺失样本临近样本
d. 回归方法:ployfit
e. 插值法:interp1函数,interp2函数,interp3函数,拉格朗日插值,牛顿插值
2. 数据的平滑处理
A smooth函数
B smoothts函数
C medfiltl函数
3. 数据的标准化变换
A 标准差标准化:
I
a. Z=zscore(X);
result: z=(X-mean(X))./std(X)
b. [Z,mu,sigma]=zscore(X);
mu=mean(X) sigma=std(X)
c. [Z,mu,sigma]=zscore(X,flag,dim);
i. flag=0 样本容量为n-1
flag=1 样本容量为n
ii. dim=1 列变换
dim=2 行变换
注:均值和标准差受离群值点的影响很大,经常用中位数M取代均值,其次用绝对值差取代标准差 (W是平均数或中位数)
B 极差归一化( )
I [R,xmin,xmax]=rescore(x,dim);
dim=1 列变换
dim=2 行变换
(代码见附录)
附录
一. 拉格朗日插值函数lagrange_interp()
function [ yi ] = lagrange_interp (X,Y,xi)
n=length(X); %得到已知数据长度
m=length(xi); %得到待插值数据长度
yi=zeros(<