数据分析

最新推荐文章于 2023-12-15 19:08:32 发布

_DREAMS

最新推荐文章于 2023-12-15 19:08:32 发布

阅读量178

点赞数

文章标签： MATLAB

数据分析

简介

每个数据分析都包含一些标准的活动：

预处理 - 考虑离群值以及缺失值，并对数据进行平滑处理以便确定可能的模型。
汇总 - 计算基本的统计信息以描述数据的总体位置、规模及形状。
可视化 - 绘制数据以便确定模式和趋势。
建模 - 更全面地描述数据趋势，以便预测新数据值。

数据分析通过这些活动，以实现两个基本目标：

使用简单模型来描述数据中的模式，以便实现正确预测。
了解变量之间的关系，以便构建模型。

此部分说明如何在 MATLAB® 环境中执行基本数据分析。

数据的预处理

通过将数据加载到合适的 MATLAB® 容器变量并区分“正确”数据和“错误”数据，开始数据分析。这是初级步骤，可确保在后续的分析过程中得出有意义的结论。

isnan 判断查询数组元素是否包含 NaN 值

加载数据

首先加载 count.dat 中的数据：

load count.dat

这个 24×3 数组 count 包含三个十字路口（列）在一天中的每小时流量统计（行）。

缺失数据

MATLAB NaN（非数字）值通常用于表示缺失数据。通过 NaN 值，缺失数据的变量可以维护其结构体 - 在本示例中，即在所有三个十字路口中的索引都是一致的 24×1 向量。

使用 isnan 函数检查第三个十字路口的数据是否存在 NaN 值：

c3 = count(:,3); % Data at intersection 3
c3NaNCount = sum(isnan(c3))

c3NaNCount = 0

isnan 返回一个大小与 c3 相同的逻辑向量，并且通过相应条目指明数据中 24 个元素内的每个元素是存在 (1) 还是缺少 (0) NaN 值。在本示例中，逻辑值总和为 0，因此数据中没有 NaN 值。

离群值部分的数据中引入了 NaN 值。

离群值

离群值是与其余数据中的模式明显不同的数据值。离群值可能由计算错误所致，也可能表示数据的重要特点。根据对数据及数据源的了解，确定离群值并决定其处理方法。

确定离群值的一种常用方法是查找与均值的标准差大于某个数字的值。下面的代码绘制第三个十字路口的数据直方图以及和 () 处的直线：

h = histogram(c3,10); % Histogram
N = max(h.Values); % Maximum bin count
mu3 = mean(c3); % Data mean
sigma3 = std(c3); % Data standard deviation

hold on
plot([mu3 mu3],[0 N],'r','LineWidth',2) % Mean
X = repmat(mu3+(1:2)*sigma3,2,1);
Y = repmat([0;N],1,2);
plot(X,Y,'Color',[255 153 51]./255,'LineWidth',2) % Standard deviations
legend('Data','Mean','Stds')
hold off

此绘图表明某些数据比均值大两个标准差以上。如果将这些数据标识为错误（而非特点），请将其替换为 NaN 值，如下所示：

outliers = (c3 - mu3) > 2*sigma3;
c3m = c3; % Copy c3 to c3m
c3m(outliers) = NaN; % Add NaN values

平滑和筛选

第三个十字路口的数据时序图（已在离群值中删除该离群值）生成以下绘图：

plot(c3m,'o-')
hold on

在绘图中，第 20 个小时的 NaN 值出现间隔。这种对 NaN 值的处理方式是 MATLAB 绘图函数所特有的。

噪音数据围绕预期值显示随机变化。您可能希望在构建模型之前对数据进行平滑处理，以便显示其主要特点。平滑处理应当以下面两个基本假定为基础：

- 预测变量（时间）和响应（流量）之间的关系平稳。

- 由于已减少噪音，因此平滑算法生成比预期值更好的估计值。

使用 MATLAB convn 函数对数据应用简单移动平均平滑法：

span = 3; % Size of the averaging window
window = ones(span,1)/span; 
smoothed_c3m = convn(c3m,window,'same');

h = plot(smoothed_c3m,'ro-');
legend('Data','Smoothed Data')

使用变量 span 控制平滑范围。当平滑窗口在数据中包含 NaN 值时，平均值计算返回 NaN 值，从而增大平滑数据中的间隔大小。

此外，还可以对平滑数据使用 filter 函数：

smoothed2_c3m = filter(window,1,c3m);

delete(h)
plot(smoothed2_c3m,'ro-','DisplayName','Smoothed Data');

平滑数据在以上绘图的基础上发生了偏移。带有 'same' 参数的 convn 返回卷积的中间部分，其长度与数据相同。filter 返回卷积的开头，其长度与数据相同。否则算法相同。

平滑处理可估计预测变量的每个值的响应值分布的中心。它使许多拟合算法的基本假定无效，即预测器的每个值的错误彼此独立。相应地，您可以使用平滑数据确定模型，但应避免使用平滑数据拟合模型。

_DREAMS

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据分析

数据分析简介每个数据分析都包含一些标准的活动：预处理 - 考虑离群值以及缺失值，并对数据进行平滑处理以便确定可能的模型。汇总 - 计算基本的统计信息以描述数据的总体位置、规模及形状。可视化 - 绘制数据以便确定模式和趋势。建模 - 更全面地描述数据趋势，以便预测新数据值。数据分析通过这些活动，以实现两个基本目标：使用简单模型来描述数据中的模式，以便实现正确预测。了...
复制链接

扫一扫