先用knn对数据集进行预处理再利用神经网络对数据集进行分类_吉林大学于德新：基于数据感知的道路交通动态特征挖掘技术...-CSDN博客

为适应智能交通发展需求，现阶段不仅需要从原有单个路段上交通数据特征分析，而且需要将其扩展到网络层面上的交通状态分析。

吉林大学智能交通系统研发中心主任于德新老师讲述了如何以道路交通网络时空拆解和联合多方式提取的交通数据为分析对象，利用数据挖掘技术对网络进行特征提取和态势预测，可以更好的为公众交通出行、政府决策提供有价值的理论参考。

以下是于德新发言概述：

一、交通数据的时空属性

无论何种数据，交通数据均具有时空属性。城市交通流变化周而复始，在空间上遵循着城市道路的空间结构而发生着变化。为分析城市交通动态特征，路网交通流的动态性实质就是道路中变化的车流，具体体现为动态交通数据。

这些数据顺序产生充分体现了交通数据的时间性，数据来源位置体现了交通数据的空间性。

而时间属性叠加于控件属性之上，每一个采集的交通数据都蕴含了时间属性和空间属性，由于时间属性是一阶属性，空间属性是二阶属性，两者结合给出实际中交通数据符合三阶张量的定义形式。

交通网络动态特性分析中，产生的数据基本属于离散数据，会有溢出或缺失的情况，因此需要对离散数据进行预处理，过程中会对数据进行校验，如果发生溢出或丢失情况会及时进行修复。这也是动态特性分析的前提和基础。

在此基础上，研究某一路段交通流时序特征和交通网络时空状态特征，完成时空交通数据预测部分。

二、离散交通数据预处理层

针对现阶段交通精准管理和控制的需求，决策数据的来源依旧是为交通控制管理服务的交通检测设施和为交通信息采集服务的浮动车和出租车。这些感知的交通数据的质量很大程度决定了交通特性的分析和挖掘的可靠性。

实时城市交通数据是城市交通控制与管理的重要基础信息的来源，它能够表征城市道路实时的交通状态。这些具有重要交通意义的数据主要来源是智能交通控制与管理系统中的检测器，这些设施应用不同检测技术获取城市道路中各类交通参量，从而提供较为全面的道路交通状况感知信息。

针对交通数据的上述特征，结合具有高效性的随机特征选择方式来优化随机森林(Random Forest)过程。

保留随机森林算法中随机选择的数量特征和先验概率不变，同时根据实际数据情况提高了对少数类样本的“感应”。

基于PSO-SVR优化FCM的交通流缺失数据修复方法，采用模糊C均值算法(Fuzzy C-means，FCM )估计缺失值，通过优化参数，以获得最佳预测精度。

通过粒子群优化模型(Particle Swarm Optimi -zation，PSO)与支持向量回归模型(Support Vector Regression, SVR)相结合的方法来优化参数c和m，以减小误差。

三、时序交通数据分析层

交通数据张量沿时间方向的管纤维实际为获取的交通流时间序列，体现每个检测位置的交通流时间变化关系。

时空交通数据为研究对象，利用复杂网络理论将交通数据时间序列转化为图形，通过可视化方法从交通数据中挖掘出管理城市交通所需的信息，了解其内部的规律，进而为缓解交通问题服务。

基于复杂网络的路段时序交通数据特征分析，时间序列可以从离散动力系统的角度理解，将时间序列看成离散动力系统所产生的一维状态序列。

在系统的描述中，系统在某一时刻的状态称之为相，对应的决定状态的几何空间称之为相空间(Phase Space)。

相空间重构(Phase Space Reconstr uction，PSR)是高维空间的轨迹经过拉伸和折叠，把决定时间序列的动力系统的吸引子恢复出来，分析其动力学性质。

四、基于相空间重构的交通流时间序列网络

不同连接阀值rc下交通流时间占有率序列网络模块化结构图，通过相空间重构得到的交通流时间序列网络，反映交通流动力学特性的信息空间，从空间网络角度分析了不同参量交通流时间序列网络的度分布高斯分布特征、平均聚类系数衰减特征和高模块化特征。

1.基于变量选择和KELM的交通事件自动检测

随机森林不仅能够用于分类和回归，而且可以度量变量重要性(Variable Importance，VI)。

递归特征消除(Recursive Feature Elimination，RFE)是一种基于特征变量排序的变量选择方法。

极限学习机(Extreme Learning Machine，ELM)是一种新型的单层前馈神经网络学习算法。

万有引力搜索算法(GSA)给出了一个智能体集合，能够根据牛顿万有引力定律来寻找最优解方案。

综上分析，主要得到以下结论：

(1)RF-RFE算法能够有效选择交通事件检测的重要变量，不仅降低了AID算法的输入维数，而且以重要变量为输入的AID算法具有更好的性能。

(2)在本案例数据集上，KELM的性能优于BPNN和SVM。

(3)持续性检测次数为1时，能够较好的权衡DR、FAR和MTTD三个指标。

2.基于谱聚类和RS-KNN的交通状态判别

谱聚类是一种基于谱图划分理论的新型聚类算法，相比传统的聚类算法(如K-means)，其优点在于计算复杂度低，不受样本空间形状限制等。

随机子空间(Random Subspace，RS)是一种基于样本特征空间抽样的集成学习算法，其基本原理是从训练样本的特征空间中随机抽样，构建新的训练集，并训练基分类器(采用KNN作为基分类器)，通过一定规则(本文采用多数投票规则)融合多个基分类器的结果，得到最终分类结果。

通过交通流数据的聚类，得到四个聚类簇，分别对应顺畅、平稳、拥挤和拥堵四种交通状态。

簇与簇之间的界限明显，说明聚类效果良好。

顺畅交通状态下，占有率低，车与车之间的干扰很小，车辆几乎可以自由行驶，速度快，因而该状态的交通参数数据点比较分散。

平稳交通状态下，占有率有所升高，车与车之间干扰增加，开始出现跟驰现象，交通流连续性增强，交通运行平稳，交通流量与速度大致呈线性关系，交通流量随速度的降低而增加。

拥挤状态下，占有率进一步升高，车辆之间的干扰加剧，速度的下降加快，随之交通流量的增加缓慢，直至不增加，甚至减小。

拥堵状态下，车与车之间严重干扰，速度大幅度下降，交通流量减小，占有率急剧升高，交通运行极不稳定，数据的离散度较大。

因此，通过谱聚类划分的交通状态，符合交通流在不同阶段的运行特性。

各模型交通状态判别结果的混淆矩阵如图所示，在拥堵状态判别方面，RS-KNN模型与SVM模型的判别率相等(均为97.1%)，除此之外，RS-KNN模型对各交通状态的判别率均高于其他模型。在总体判别率方面，RS-KNN模型比KNN模型、BPNN模型和SVM模型分别提高7.3%、4.9%和4.5%。综上，RS-KNN模型不仅能够进一步提高交通状态判别的精度，而且具有较好的鲁棒性。

因此，通过谱聚类划分的交通状态，符合交通流在不同阶段的运行特性。

3.基于NCA-BOA-RF的交通事件持续时间预测

通过NCA方法选择事件持续时间的特征变量。正则化参数是NCA特征选择方法的一个重要参数。首先判断取值是否合理。一般情况下，取值为，为训练集样本量。以均值为0，方差为20，随机生成100组不相关变量，并添加到训练集。

通过NCA计算全部变量的特征权重。如果取值合适，则相关变量的特征权重较大，而不相关变量的特征权重很小，并且趋近于0。如果取值合适过大，则所有变量的特征权重都趋近于0；如果取值过小，则不相关变量同样具有较大的特征权重。

图给出了全部变量的特征权重。从图可以看出，所有变量的特征权重都趋近于0，说明参数取值偏大，需要进一步优化。

利用特征变量构造训练集。在随机森林算法训练之前，需要确定随机森林的参数，包括决策树的数量、每棵决策树的叶片数 (每个节点分裂数)和每个节点分裂使用的随机变量个数。增加决策树的数量，一定程度上能够提高分类准确率，却降低了算法的运行效率。如果以最小分类误差为目标，可能导致决策树数量的急剧增加。

因此，本文并不优化决策树数量，而是通过优化另外两个参数，提升算法分类准确率。如果过大，容易导致过拟合现象；反之，则容易导致欠拟合现象。应小于全部变量数，即交通事件持续时间的特征变量数。

五、时空交通数据预测层

基于时序分析和机器学习的交通状态预测。

一定周期内城市的交通流变化周而复始，城市路网的基本结构在较长时期内固定不变，所以城市路网交通流变化与出行者选择息息相关。这些选择随路网交通态势变化而变化，分析及预测道路网络层次上的交通态势显得尤为重要。

针对交通流参数序列具有混沌特性的问题，构建了基于多变量相空间重构(Multivariate Phase Space Reconstruction，MPSR)和组合核函数最小二乘支持向量机(Combined Kernel Function Least Squares Support Vector Machine，CKF-LSSVM)的短期交通流预测模型(MPSR-CKF-LSSVM)。

首先，使用C-C方法计算最佳时间延迟和嵌入维数，用于交通流参数(流量、速度、占有率)序列的相空间重构。然后，通过G-P算法求解交通流参数序列的关联维数，判定交通流参数序列是混沌的。最后，通过MPSR确定CKF-LSSVM模型的最优输入形式，并且通过PSO算法优化模型的参数。