数据分析
简介
每个数据分析都包含一些标准的活动:
- 预处理 - 考虑离群值以及缺失值,并对数据进行平滑处理以便确定可能的模型。
- 汇总 - 计算基本的统计信息以描述数据的总体位置、规模及形状。
- 可视化 - 绘制数据以便确定模式和趋势。
- 建模 - 更全面地描述数据趋势,以便预测新数据值。
数据分析通过这些活动,以实现两个基本目标:
- 使用简单模型来描述数据中的模式,以便实现正确预测。
- 了解变量之间的关系,以便构建模型。
此部分说明如何在 MATLAB® 环境中执行基本数据分析。
数据的预处理
通过将数据加载到合适的 MATLAB® 容器变量并区分“正确”数据和“错误”数据,开始数据分析。这是初级步骤,可确保在后续的分析过程中得出有意义的结论。
isnan 判断查询数组元素是否包含 NaN 值
加载数据
首先加载 count.dat
中的数据:
load count.dat
这个 24×3 数组 count
包含三个十字路口(列)在一天中的每小时流量统计(行)。
缺失数据
MATLAB NaN
(非数字)值通常用于表示缺失数据。通过 NaN
值,缺失数据的变量可以维护其结构体 - 在本示例中,即在所有三个十字路口中的索引都是一致的 24×1 向量。
使用 isnan
函数检查第三个十字路口的数据是否存在 NaN
值:
c3 = count(:,3); % Data at intersection 3
c3NaNCount = sum(isnan(c3))
c3NaNCount = 0
isnan
返回一个大小与 c3
相同的逻辑向量,并且通过相应条目指明数据中 24 个元素内的每个元素是存在 (1
) 还是缺少 (0
) NaN
值。在本示例中,逻辑值总和为 0
,因此数据中没有 NaN
值。
离群值部分的数据中引入了 NaN
值。
离群值
离群值是与其余数据中的模式明显不同的数据值。离群值可能由计算错误所致,也可能表示数据的重要特点。根据对数据及数据源的了解,确定离群值并决定其处理方法。
确定离群值的一种常用方法是查找与均值 的标准差
大于某个数字的值。下面的代码绘制第三个十字路口的数据直方图以及
和
(
) 处的直线:
h = histogram(c3,10); % Histogram N = max(h.Values); % Maximum bin count mu3 = mean(c3); % Data mean sigma3 = std(c3); % Data standard deviation hold on plot([mu3 mu3],[0 N],'r','LineWidth',2) % Mean X = repmat(mu3+(1:2)*sigma3,2,1); Y = repmat([0;N],1,2); plot(X,Y,'Color',[255 153 51]./255,'LineWidth',2) % Standard deviations legend('Data','Mean','Stds') hold off
此绘图表明某些数据比均值大两个标准差以上。如果将这些数据标识为错误(而非特点),请将其替换为 NaN
值,如下所示:
outliers = (c3 - mu3) > 2*sigma3; c3m = c3; % Copy c3 to c3m c3m(outliers) = NaN; % Add NaN values
平滑和筛选
第三个十字路口的数据时序图(已在离群值中删除该离群值)生成以下绘图:
plot(c3m,'o-') hold on
在绘图中,第 20 个小时的 NaN
值出现间隔。这种对 NaN
值的处理方式是 MATLAB 绘图函数所特有的。
噪音数据围绕预期值显示随机变化。您可能希望在构建模型之前对数据进行平滑处理,以便显示其主要特点。平滑处理应当以下面两个基本假定为基础:
- 预测变量(时间)和响应(流量)之间的关系平稳。
- 由于已减少噪音,因此平滑算法生成比预期值更好的估计值。
使用 MATLAB convn
函数对数据应用简单移动平均平滑法:
span = 3; % Size of the averaging window window = ones(span,1)/span; smoothed_c3m = convn(c3m,window,'same'); h = plot(smoothed_c3m,'ro-'); legend('Data','Smoothed Data')
使用变量 span
控制平滑范围。当平滑窗口在数据中包含 NaN
值时,平均值计算返回 NaN
值,从而增大平滑数据中的间隔大小。
此外,还可以对平滑数据使用 filter
函数:
smoothed2_c3m = filter(window,1,c3m); delete(h) plot(smoothed2_c3m,'ro-','DisplayName','Smoothed Data');
平滑数据在以上绘图的基础上发生了偏移。带有 'same'
参数的 convn
返回卷积的中间部分,其长度与数据相同。filter
返回卷积的开头,其长度与数据相同。否则算法相同。
平滑处理可估计预测变量的每个值的响应值分布的中心。它使许多拟合算法的基本假定无效,即预测器的每个值的错误彼此独立。相应地,您可以使用平滑数据确定模型,但应避免使用平滑数据拟合模型。