A Mobile Telematics Pattern Recognition Framework for Driving Behavior Extraction

摘要

移动远程信息处理是一项相对较新的创新,它涉及使用智能手机中的内部传感器而不是车载数据记录器来收集有关驾驶行为的数据。然而,远程信息处理数据通常没有标签,这使得从中提取驾驶模式非常困难。因此,无监督学习算法在该领域发挥着重要作用。此外,目前大多数研究都是基于实验室开发的数据集或来自现场调查和问卷调查,这与现实世界的驾驶行为有很大不同。为了推进该领域的无监督学习技术,并填补基于现实世界数据的发现空白,我们开发了一个用于移动远程信息处理数据的无监督模式识别框架。该框架包括三个主要组件:自组织图、九层深度自动编码器和部分聚类算法。 SOM 算法降低了数据的复杂度,深度自编码器提取特征,聚类算法将具有相似模式的驾驶事件分组为行为。此外,鉴于移动远程信息数据的聚类是一个研究不足的领域,我们对五种众所周知的聚类算法进行了实证比较,以确定每种方法的优缺点以及最适合对驾驶风格进行分类的方法。该研究使用真实世界的保险数据集进行,该数据集包含 2500 名司机的 500,000 次旅程,并根据三个指标评估结果——Davis Boulding、Calinski Harabasz 和执行时间。总的来说,我们发现 k-means 聚类和自组织图能够比其他方法提取更准确的模式。对 SOM 和 k-means 生成的 29 个集群的统计分析揭示了 29 种独特的驾驶风格,所有这些都可以在交通文献中找到。在相应文献综述的支持下,该研究的结果证明了所提出的框架在无监督环境中的有效性。此外,研究结果为基于使用的保险公司开发未来风险分析和自动决策支持系统提供了基础。

索引词——移动远程信息处理、模式识别、车辆驾驶、无监督学习。

背景

1.Change Detection Algorithm(变化检测算法)

变化检测算法是一种在时间序列数据中找到主要变化的时间窗口的算法——最常见的是通过统计技术。
为了计算两个不同时间段之间的差异度量,Liu 等人提出了相对无约束最小二乘重要性拟合(RuLSIF)算法。 RuLSIF。它使用基于密度的差异度量来计算两个连续时间窗口之间的变化。

2.Self-Organizing Map(自组织图)

自组织映射 (SOM) 是一种特殊类型的无监督学习算法,可生成输入空间的离散化映射。 SOM 已成为广泛应用中的一种常用技术,例如数据可视化、降维和矢量量化 。 SOM 的主要优点是它们降低了计算成本,如果集群是一个人的策略的一部分,这尤其有价值。考虑到在多维数据中计算距离的复杂性,大多数聚类算法在计算上都是贪婪的,即使是少量的记录也是如此。 SOM 通过抽象输入数据的原型来降低计算成本。然后可以使用聚类算法对抽象数据进行分类,而不是对完整数据集进行分类。 SOM 的另一个优点是它能够容忍噪声。 SOM 中的每个节点代表一组输入数据,因此它对嘈杂环境中生成的数据不太敏感 。相比之下,SOM 的最大弱点之一是检测异常值。根据定义,异常值是罕见的数据点,因此,SOM 难以生成合适的原型来表示这些数据 。

3.Deep Auto-Encoder(深度自动编码器)

深度自动编码器模型是一组以神经网络架构排列的多个自动编码器。一个简单的自动编码器有两个部分,一个编码器和一个解码器。
在这里插入图片描述
在编码层中,编码器函数 h = f (Wx + b) 用于每一层对输入数据进行编码。编码阶段一直持续到中间层,此时解码器函数 h = f(W’ x + b’) 开始重构编码的输入数据。 Sigmoid、tanh、soft sign 和 Relu 函数是编码器和解码器函数最突出的激活函数。
基本自动编码器的参数集包括 Wl、Wl、bl、bl。训练这些参数以通过以下方式最小化损失函数.
在这里插入图片描述
训练过程是无监督的,中间层代表输入数据的编码版本。在本文中,使用深度自动编码器从驾驶风格数据中自动提取特征。

4.Partitive Clustering(部分聚类)

部分聚类是一种无监督学习技术,它将未标记的输入数据聚类到多个分区中,即根据基于距离的相似性对成员进行分组。部分聚类算法假设输入数据可以分类为原型;因此,它们也被称为基于原型的聚类算法。主要目标是将数据压缩到这些原型中。每个部分聚类算法都有不同的方法来定义输入数据的原型。例如,最著名的部分聚类算法之一,k-means,使用 K-means++ 算法来寻找初始原型 。部分聚类算法已在广泛的应用中使用,从用于客户细分的大数据聚类,到天气预报 ,再到生物医学健康等等。下面的算法 1 概述了部分聚类算法的主要步骤
在这里插入图片描述
算法1 部分聚类算法
输入:数据集和 K 个原型,M 最大迭代
输出:具有聚类标签的数据点
1.输入数据中初始化 K 个数据点作为初始集群原型
2.使用距离函数将每个数据点分配给最近的原型。
3.使用这些新数据点重新计算每个集群的中心。
4.如果集群没有显着变化,请重复步骤二和三。

移动远程信息模式识别框架

框架中的两个主要步骤。第一步是数据准备,为分析准备轨迹数据。在这里,轨迹被转换为流数据以揭示驾驶行为,并应用变化检测来发现原始遥测中最重要的事件。第二步涉及使用两阶段聚类过程对不同的驾驶行为进行分类。
在这里插入图片描述

1.数据准备

数据清理和准备是任何数据挖掘和知识发现项目的重要步骤。因此,此步骤的主要目标是清理数据并降低其复杂性。这个过程有两个部分:数据转换和变化检测。

2.两阶段聚类

一旦为分析准备好数据,两阶段聚类算法就会将选定的时间窗口分组。在这个阶段,我们使用 SOM 和深度自动编码器在它们之间做出选择,以进行后续聚类。

(1)SOM

在我们的框架中,SOM 是一个具有矩形拓扑的格输出空间。第一步是根据输入记录的数量生成一个初始 SOM。然后,随机选择一个样本驾驶事件(记录),并根据欧几里得距离计算其与所有其余 SOM 节点的相似度。选择距离最小的节点作为最佳匹配单元(BMU),并将所选样本分配给该节点。然后用公式 4 中的权重更新规则更新获胜者及其相邻节点。该过程继续进行,直到所有数据都已分配给相应的节点。

(2)Deep Auto-Encoder

深度自动编码器组件由许多具有随机生成的权重和偏差向量的神经网络组成,这些网络在训练阶段进行了优化。继刘等人之后。 [39],我们设计了一个具有四个编码器层的深度网络。每层节点数为:45→22→11→5→3→5→11→22→45。因此,网络通过使用编码器层 45 → 22 → 11 → 5 → 3 来提取特征。梯度下降优化器用于最小化重建误差。

(3)Clustering

SOM 和深度自动编码器算法已将数据简化为抽象子空间。但是,仍然会有太多的点无法直接分析,因此需要将它们聚类到相似的组中。如引言中所述,尚未进行任何研究来确定是否存在对未标记的远程信息数据进行聚类的明确最佳选择。因此,我们使用一系列不同的部分聚类算法对这个问题进行了我们自己的实证研究。

实施和数据分析

1.数据准备

我们的源数据是一家欧洲保险公司收集的大规模数据集,其中包含来自 2500 多名司机的超过 500,000 次行程的行程数据。处理整个数据集的计算成本将非常高。但是,每个人都有自己的驾驶模式,因此通过分析每位司机的多次行程不会获得新的有用信息。我们选择了每位司机最长的 20 次行程来进行分析。因此,最终数据集包含 50,000 次行程(20 次行程 × 2500 名司机)。

为了从轨迹数据中提取驾驶特征,我们将数据分成三个流。第一个流是速度,包含在任何给定时间旅行期间车辆的速度。第二和第三流是在 x 和 y 轴上的加速度。这些流用于评估硬断裂、急速启动和转弯行为。

为了去除无用的数据,我们将数据划分为大约 15 秒的时间窗口,并以 1 秒的步长滑动,因为根据 Zhang 等人的说法。 [47],完成一个驾驶事件至少需要 15 秒。然后为每个时间窗口计算基于 RuLSIF 的变化检测分数。图 5 显示了以速度、x 加速度和 y 加速度为三个输入变量的 RuLSIF 变化检测算法的输入和输出。图 5 显示了相应时间范围内的变化分数。评估了大约 790 万个时间窗口。继 Lee 和 Jang [13] 之后,我们选择了具有最高 RuLSIF 分数的 5% 来表示最显着的变化,并进一步选择了变化分数大于阈值 68.598 的所有窗口。这留下了 394,833 个窗口,每个窗口代表一个具有 15 秒数据的驾驶事件。
在这里插入图片描述
图 5. 变化检测分数。五个蓝色阴影列表示检测到的驾驶行为超过了变化阈值(在本例中为 68.60)。所有这些事件都在驾驶行为方面对速度、x 加速度和/或 y 加速度产生显着变化。例如,事件 1 中的驾驶员正在以高速和剧烈变化的速度行驶,y 轴加速度有许多变化。事件 4 显示所有变量的高度变化。

2.两阶段聚类

这些事件已准备好分析它们的驾驶特性。如前所述,我们使用 SOM 来降低数据的复杂性,并使用深度自动编码器来提取特征。在 SOM 中,定义具有适当数量节点的映射至关重要,因为当 n 较小时,原型将非常通用,而当 n 很大时,原型将非常详细。因此,为了定义最佳节点数,我们遵循 Céréghino 和 Park [48] 并确定了等于 5 × √ n 的节点数,其中 n 是所选事件的总数。对于 394,833 个事件,最佳节点数为 2814。下一个挑战是为输入数据定义适当的地图大小。我们根据特征值和特征向量[18]选择了21×134的地图大小。在定义了 SOM 映射之后,我们将深度自动编码器的架构设计为有九层。在训练阶段,该模型被教导使用梯度下降优化器减少重建误差。训练模型后,编码器层提取特征,从而减少输入特征的数量。两阶段聚类算法的第二步是部分聚类。在这一步中,我们使用了各种部分聚类算法来寻找具有最高性能的最佳聚类算法。开发部分聚类算法的一个关键问题是找到最佳的聚类数量,因为合适的聚类数量可以提高性能。然而,由于在实际问题中集群的数量通常是未知的,我们开发了算法 3 来解决这个问题。简而言之,该算法应用平方误差和 (SSE) 和自举技术来找到稳健的结果。
在这里插入图片描述

3.性能评估

为了确定框架和移动远程信息处理数据的最佳聚类算法,我们使用五重交叉验证方法和算法 2 将五种不同的部分聚类算法与三个指标进行了比较。
我们选择进行比较的五种算法是k-means,MINIbatch k-means, agglomerative clustering, spectral cluster-ing, and BIRCH clustering.在使用 SOM 和 DAE 为聚类准备数据后,我们使用测试样本来比较五个模型在执行时间、Calinski Harabasz 和 Davis Boulding 指数方面的性能。
在这里插入图片描述

4.实验结果

在所有三个指标中,驾驶风格模式识别的最佳聚类选择是明确的——SOM + k-means,首先是因为与其他方法相比,它具有非常低的 DB 索引,这意味着使用 SOM+ k-means 提取的聚类是独特的,与其他技术相比,它们与其他集群不太相似。另外,深度自动编码器中的CH指标略优于SOM+k-means,这种差异并不足以鼓励我们选择该算法作为选择方法,但其计算成本非常高,BD指标非常低。

提取的驾驶模式

从上一节的三个测试中,我们确定 k-means 与 SOM 结合是识别驾驶风格模式的最佳整体算法。下一步是找到最佳的集群数量。我们使用算法 3 通过 SOM + k-means 聚类算法确定最佳聚类数。我们发现最佳聚类数为 29。图 5 列出了每次迭代中不同聚类数的平方误差之和,显示 29 为最佳聚类数,因为 29 个聚类不超过定义的 1% 阈值, 并且确实满足小于 1% 改善的停止条件。
在这里插入图片描述
因此,我们从数据集中提取了 29 种独特的驾驶行为。每个集群是一组时间序列数据和原始数字。然而,作为结果,原始数字对交通专家来说意义不大,因此我们需要了解每种驾驶模式并为每个集群找到一个有意义的名称。我们遵循匹配算法为每种驾驶行为找到合适的标签。在这个算法中,首先,我们回顾了排名靠前、被高度引用的出版物介绍的各种驾驶行为,并选择了三篇论文进行回顾:[1]-[3]。其次,我们开发了描述性分析,以使用速度、加速度、x 轴和 y 轴加速度的平均值、最小值、最大值和标准偏差来了解每个类别。然后,我们比较了文献中提取的驾驶模式与当前驾驶行为之间的相似性。然后,我们选择文献中最相似的模式作为每个类别的代表。最后,我们为每个集群命名以反映文献中发现的最相似驾驶行为的名称。

实现算法 4 后,我们了解了所有 29 个集群的特征。例如,集群 17 代表以极低速度和低加速度驾驶的人,占事件的 16.5%。这种行为表明这些司机有停车的倾向。在另一个驾驶组,集群 29 中,y 加速度接近于零,并且 x 加速度在短时间内高于零,这类似于 Fazeen 等人描述的转弯行为。 [2]。下一组,Cluster 13,是正常驾驶行为,即标准速度,加速度非常低,变化很少,标准偏差很小。于等人。 [3] 将这种类型的驾驶描述为“正常驾驶行为”。集群 8 表现出如 Chen 等人所述的转向行为。 [1]。 x 轴和 y 轴加速度的值都具有高峰值和高标准偏差。集群 2 中的驱动程序在高速下表现出编织行为。它们在 x 轴和 y 轴加速度之间有很大的变化。加速度的标准偏差很高,加速度的平均值很高[3]。集群 6 反映了突然中断,占驾驶事件的 4.3%。 x 加速度保持不变,而 yacceleration 显着降低,并且 y 加速度的标准偏差很高 [1]。簇 26 的特点是 x 和 y 加速度的变化很大。速度范围中等,加速度的标准差大,加速度低。在上文中,我们解释了占驾驶事件 50% 的顶级聚类,以描述聚类结果如何与交通研究中的相应名称匹配。
在这里插入图片描述
在这里插入图片描述

结论和进一步研究

使用无监督学习技术了解驾驶模式是一个尚未充分探索的研究领域,找到具有最高性能和最佳集群数量的最佳聚类算法仍然存在问题。在本文中,我们提出了一个框架来从智能手机生成的数据中提取独特的驾驶行为。以前对驾驶风格分析的研究主要基于实验室模拟、现场调查或问卷调查。这些数据集与现实世界的数据完全不同,后者大多未标记。此外,当使用真实数据时,它来自车载记录仪,安装成本高,并且限制了远程信息处理的使用。然而,我们的框架是使用真实的智能手机数据而不是车载数据记录器或合成数据集开发的,后者成本较低。在我们的框架中,我们使用相对无约束最小二乘重要性拟合 (RuLSIF) 模型作为变化检测算法来检测识别驾驶特征的信息量最大的时间框架。我们使用该算法通过删除不必要的时间框架来降低聚类算法的复杂性。一个包含 SOM 和深度自动编码器的两阶段聚类框架,以降低输入数据的复杂性,之后可以使用部分聚类算法对数据进行聚类分析。通过对 k-means、MINIbatch k-means、凝聚聚类、谱聚类和 Birch 聚类的评估,我们发现根据 Davis Boulding 和 Calinski 的结果,SOM + k-means 聚类是提取驾驶模式的最佳选择Harabasz 索引和执行时间。最终的聚类结果揭示了 29 个独特的驾驶类别。我们在文献中为每个集群找到了最相似的驾驶模式,以识别所有提取的驾驶类别的标签。未来,我们计划提出一种无监督决策支持系统,该系统使用提取的驾驶类别作为自动决策的标准。为确保系统全面有效,我们需要设计一个风险评估框架,该框架可以评估每种模式的概率和严重性,并为每个独特行为以及每个驱动程序计算风险评分。模糊推理系统将是我们这一努力的起点。此外,使用机器学习技术进行驾驶风格分析的最棘手的挑战之一是缺乏标记数据。因此,交通和道路安全领域的研究人员也可以使用该框架来标记远程信息处理数据中未标记的驾驶模式。一旦被标记,数据就可以与监督学习技术一起使用,该技术具有用于各种应用的最先进的机器学习算法。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值