统计分析——数据的预处理

本文介绍了统计分析中数据预处理的重要步骤,包括数据清洗的异常值处理和缺失值处理,如删除、插补方法等;数据的平滑处理,如使用smooth函数、smoothts函数和medfiltl函数;以及数据的标准化变换,如标准差标准化和极差归一化。还提供了拉格朗日插值、牛顿插值和极差标准化的MATLAB代码示例。
摘要由CSDN通过智能技术生成

统计分析——数据的预处理

一. 数据的清洗
1. 数据清洗
A 异常值处理
I 删除
II 视为缺失值
III 平均值修正
IV 不处理
B 缺失值处理
I 删除
II 不处理
III 插补方法
a. 均值(mean)中位数(medium)众数(mode)
b. 使用固定值
c. 最近临插补:找与缺失样本临近样本
d. 回归方法:ployfit
e. 插值法:interp1函数,interp2函数,interp3函数,拉格朗日插值,牛顿插值
2. 数据的平滑处理
A smooth函数
B smoothts函数
C medfiltl函数
3. 数据的标准化变换
A 标准差标准化:

I
a. Z=zscore(X);
result: z=(X-mean(X))./std(X)
b. [Z,mu,sigma]=zscore(X);
mu=mean(X) sigma=std(X)
c. [Z,mu,sigma]=zscore(X,flag,dim);
i. flag=0 样本容量为n-1
flag=1 样本容量为n
ii. dim=1 列变换
dim=2 行变换
注:均值和标准差受离群值点的影响很大,经常用中位数M取代均值,其次用绝对值差取代标准差 (W是平均数或中位数)
B 极差归一化( )
I [R,xmin,xmax]=rescore(x,dim);
dim=1 列变换
dim=2 行变换
(代码见附录)
MATLAB主要的数据预处理函数
附录
一. 拉格朗日插值函数lagrange_interp()

function [ yi ] = lagrange_interp (X,Y,xi)
n=length(X);       %得到已知数据长度
m=length(xi);      %得到待插值数据长度
yi=zeros(<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值