数据分析

数据分析

简介

每个数据分析都包含一些标准的活动:

  • 预处理 - 考虑离群值以及缺失值,并对数据进行平滑处理以便确定可能的模型。
  • 汇总 - 计算基本的统计信息以描述数据的总体位置、规模及形状。
  • 可视化 - 绘制数据以便确定模式和趋势。
  • 建模 - 更全面地描述数据趋势,以便预测新数据值。

数据分析通过这些活动,以实现两个基本目标:

  1. 使用简单模型来描述数据中的模式,以便实现正确预测。
  2. 了解变量之间的关系,以便构建模型。

此部分说明如何在 MATLAB® 环境中执行基本数据分析。

数据的预处理

通过将数据加载到合适的 MATLAB® 容器变量并区分“正确”数据和“错误”数据,开始数据分析。这是初级步骤,可确保在后续的分析过程中得出有意义的结论。

isnan  判断查询数组元素是否包含 NaN 值

加载数据

首先加载 count.dat 中的数据:

load count.dat

这个 24×3 数组 count 包含三个十字路口(列)在一天中的每小时流量统计(行)。

缺失数据

MATLAB NaN(非数字)值通常用于表示缺失数据。通过 NaN 值,缺失数据的变量可以维护其结构体 - 在本示例中,即在所有三个十字路口中的索引都是一致的 24×1 向量。

使用 isnan 函数检查第三个十字路口的数据是否存在 NaN 值:

c3 = count(:,3); % Data at intersection 3
c3NaNCount = sum(isnan(c3))

c3NaNCount = 0

isnan 返回一个大小与 c3 相同的逻辑向量,并且通过相应条目指明数据中 24 个元素内的每个元素是存在 (1) 还是缺少 (0NaN 值。在本示例中,逻辑值总和为 0,因此数据中没有 NaN 值。

离群值部分的数据中引入了 NaN 值。

离群值

离群值是与其余数据中的模式明显不同的数据值。离群值可能由计算错误所致,也可能表示数据的重要特点。根据对数据及数据源的了解,确定离群值并决定其处理方法。

确定离群值的一种常用方法是查找与均值  的标准差  大于某个数字的值。下面的代码绘制第三个十字路口的数据直方图以及  和  () 处的直线:

h = histogram(c3,10); % Histogram
N = max(h.Values); % Maximum bin count
mu3 = mean(c3); % Data mean
sigma3 = std(c3); % Data standard deviation

hold on
plot([mu3 mu3],[0 N],'r','LineWidth',2) % Mean
X = repmat(mu3+(1:2)*sigma3,2,1);
Y = repmat([0;N],1,2);
plot(X,Y,'Color',[255 153 51]./255,'LineWidth',2) % Standard deviations
legend('Data','Mean','Stds')
hold off

此绘图表明某些数据比均值大两个标准差以上。如果将这些数据标识为错误(而非特点),请将其替换为 NaN 值,如下所示:

outliers = (c3 - mu3) > 2*sigma3;
c3m = c3; % Copy c3 to c3m
c3m(outliers) = NaN; % Add NaN values

平滑和筛选

第三个十字路口的数据时序图(已在离群值中删除该离群值)生成以下绘图:

plot(c3m,'o-')
hold on

在绘图中,第 20 个小时的 NaN 值出现间隔。这种对 NaN 值的处理方式是 MATLAB 绘图函数所特有的。

噪音数据围绕预期值显示随机变化。您可能希望在构建模型之前对数据进行平滑处理,以便显示其主要特点。平滑处理应当以下面两个基本假定为基础:

- 预测变量(时间)和响应(流量)之间的关系平稳。

- 由于已减少噪音,因此平滑算法生成比预期值更好的估计值。

使用 MATLAB convn 函数对数据应用简单移动平均平滑法:

span = 3; % Size of the averaging window
window = ones(span,1)/span; 
smoothed_c3m = convn(c3m,window,'same');

h = plot(smoothed_c3m,'ro-');
legend('Data','Smoothed Data')

使用变量 span 控制平滑范围。当平滑窗口在数据中包含 NaN 值时,平均值计算返回 NaN 值,从而增大平滑数据中的间隔大小。

此外,还可以对平滑数据使用 filter 函数:

smoothed2_c3m = filter(window,1,c3m);

delete(h)
plot(smoothed2_c3m,'ro-','DisplayName','Smoothed Data');

平滑数据在以上绘图的基础上发生了偏移。带有 'same' 参数的 convn 返回卷积的中间部分,其长度与数据相同。filter 返回卷积的开头,其长度与数据相同。否则算法相同。

平滑处理可估计预测变量的每个值的响应值分布的中心。它使许多拟合算法的基本假定无效,即预测器的每个值的错误彼此独立。相应地,您可以使用平滑数据确定模型,但应避免使用平滑数据拟合模型。

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值