综述阅读:A Systematic Literature Review of Learning-Based TrafficAccident Prediction Models

全名:A Systematic Literature Review of Learning-Based Traffic Accident Prediction Models Based on Heterogeneous Sources

一份关于交通事故预测模型的调研报告综述

abstract:统计数据确认,在交通事故中,几乎一半的死亡者是脆弱的道路使用者,如行人、骑自行车的人和摩托车手。尽管在技术基础设施和交通政策方面做出了努力,但受害者的数量仍然很高,超出了预期。最近的研究确定,确定交通事故的原因不是一件容易的事,因为交通事故的发生取决于一个或许多因素。例如,交通事故可能是由机械问题、恶劣的天气条件、精神和身体疲劳、疏忽、道路上的坑洞等造成的。目前,使用基于学习的预测模型作为减少交通事故数量的机制已经成为现实。这样一来,预测模型的成功主要取决于不同来源的数据如何被整合和关联。本研究旨在报告模型、算法、数据来源、属性、数据收集服务、驾驶模拟器、评价指标、训练/验证/测试的数据百分比等。我们发现,一个预测模型的性能主要取决于其数据的质量和适当的数据分割配置。使用真实的数据比模拟器产生的数据更有优势。这项工作使得我们可以确定,未来的研究必须指向开发使用深度学习的交通事故预测模型。它还必须专注于探索和使用数据源,如司机数据和灯光条件,并解决与这种类型的解决方案有关的问题,如数据的高维度和信息不平衡。

1. introduce

交通事故造成伤亡。技术基础设施的实施和严格的交通政策的采用,大大降低了事故率。然而,受害者的数量仍然很高,超出了预期。出现这种情况的部分原因是,确定交通事故的真正原因很复杂。在大多数情况下,它们的发生取决于以下一个或多个因素:机械问题、恶劣的天气条件、精神和身体疲劳、疏忽、道路上的坑洞等等。

提出learning-based model。然而,这种解决方案也带来了一些需要解决的问题。例如,其中一些问题是由信息不平衡引起的数据的高维度或大规模数据集的不良处理。这样一来,改进预测模型的策略必须集中在探索其他数据源,使其相互关联,并寻找策略来解决与这种解决方案有关的问题。

有了这个分析,我们的目的就是要对这些问题作出回应。人类因素是如何影响交通事故的发生的?一个模型中使用的特征数量如何影响其性能?来自不同数据源的信息如何被关联起来?对于实时预测模型所面临的挑战,有什么解决方案?什么类型的算法最适合于交通事故预测模型?此外,仅使用评价指标就能确定最佳模型吗?

本文的组织结构如下。第2节介绍了用于阐述本文献综述的方法,接下来是第3节,介绍了所有研究问题的答案。第4节讨论了关于基于学习的事故预测的最相关想法。最后,第5节提出了本文献综述的结论。

2. materials and methods&3. result

第二章提出问题,并统计2020年前各类交通事故预测方法情况:

表1:统计来自各期刊的相关文章;表2:在其中选出34篇满足预设条件的文章;表3:通过文章采取的策略进行分类;表4:算法表现(perform)

第三章解答:

- RQ01. 基于学习的交通事故预测模型所使用的数据来源有哪些?

预测模型使用以下数据源:车辆数据、司机数据、天气状况、灯光状况、交通事故、交通流量、交通事件、道路基础设施、出租车出行、兴趣点和人口。最常见的数据来源是天气状况、交通事故、交通流量和道路基础设施。同时,司机的数据、光线条件和出租车行程是最不常见的。根据表A2,每个数据源所包含的属性呈现如下。

- 车辆数据:标识符、时间、地点、类型、速度、状况、安全带、接送时间;

- 司机数据:年龄、性别、教育水平、碰撞因素(困倦和无聊)、涉及酒精和药物;

- 天气状况:太阳、云、雨、雪、雾、雪、横风、沙、黎明、黄昏、能见度、温度、降水、降雪、气压、风速、湿度、冰雹、风暴、风向和露点;

- 光照条件。大灯、路灯、阳光和夜光;

- 交通事故:涉及的车辆、碰撞类型、碰撞描述、道路方向、死伤人数、严重程度、人员情况、仅有财产损失的碰撞次数、有人员伤亡的碰撞次数、是否有交通物体、路段、事件类型、安全级别、碰撞月份、车辆故障、警方报告和碰撞的来源;

- 交通流量。雷达显示的车辆速度、车辆数量、占用率、平均速度、年平均日交通量、行驶方向和车道标识;

- 交通事件:关闭、施工、车辆损坏、碰撞、拥堵和堵塞的车道;

- 道路基础设施。几何特征(道路长度、道路形状、道路排列、道路类型、车道数、水平曲线半径、路肩宽度、坡度、隧道、缺陷、交叉口、入口和出口坡道以及速度限制),以及道路标志(警告、优先、信息、设施和服务);

- 出租车行程:接送时间戳、接送地点、行程距离、支付信息、出租车区域和出租车速度;

- 兴趣点:地点、类别和位置;

- 人口。*未显示;

- 其他:地形图、数字高程图、土地利用、卫星图像、人口普查区的面积、特殊日历日期、地理区域、旅行调查和自行车旅行。

- RQ02. 预测模型所使用的数据集是从哪里提取的?

预测模型的数据来自于公开的和政府的版式,还有一些来自于互联网服务,甚至还有一些是模拟器的数据。根据表A3,模型收集数据所使用的平台、互联网服务和模拟器如下所示。

- 开放平台。Kaggle和开放数据。
- 政府平台。统计和普查机构,地理和气象组织,以及警察和交通部门。
- 互联网服务。MapQuest Traffic, Microsoft Bing Map Traffic, The Weather Channel, Weather Underground, Google Earth Satellite Image, and Twitter;
- 模拟器。AIMSUN, VISSIM, PreScan, 和Paramics Discovery。
- 应用。智能交通系统(ITS)和实时监测系统。
- 其他。问卷调查

- RQ03. 预测模型存在哪些不足之处?

考虑到 "没有一个模型是完美的",这些预测模型至少存在以下一些缺陷。
- 没有包括研究区域内的空间异质性。
- 信息不平衡(无用数据量大于有用数据量),因为大多数数据与事故无关。
- 处理和分析大量数据的能力不足。
- 对长尺度数据集的处理不力。处理大量的原始数据是不现实的;因此,有必要选择要提取的相关特征。如果这种选择不充分,生成的模型将不能正确工作。
- 没有足够的相关信息来训练和测试模型(例如,必须要有同一路段的交通事故和正常交通状况的信息)。

- RQ04. 预测模型最常使用的算法是什么?

预测模型中最常见的算法依次是神经网络(长短时记忆神经网络(LSTM)、卷积神经网络(CNN)、深度神经网络(DNN)和前馈神经网络(FNN))、支持向量机和贝叶斯网络。根据图2,30%的预测模型使用神经网络的一些变体,15%使用支持向量机,12%使用贝叶斯网络。关于排名和选择变量/特征,最常见的算法是随机森林。这些算法所属的类别是神经网络、分类和合集。最后,模型用于比较其性能的最常见的算法是逻辑回归、支持向量机、决策树和神经网络的一些变种。它们的类别是分类和神经网络。

- RQ05. 预测模型使用的评价指标是什么?

作者使用的评价指标是。
- 对于分类问题。预测准确率(PAR)/准确率、真阳性率(TPR)/灵敏度/召回率、假阳性率(FPR)/脱落率、F1得分和曲线下面积(AUC)。
- 对于回归问题。平均绝对误差(MAE)、平均相对误差(MRE)、均方根误差(RMSE)和均方误差(MSE)。在所有这些指标中,比较常用的是。
- 对于分类。PAR、TPR和F1得分; - 对于回归:RMSE和MAE。

- RQ06. 从预测模型获得的性能如何?

预测模型得到的结果呈现如下。图3显示了评价指标值的分散情况。

有四组PAR、F1、AUC和MSE的值。所有的PAR值范围为0.65至1.0(65%至100%)。同样,所有的F1和AUC值分别在0.58到0.90以及0.80和0.97之间。此外,所有的MSE值都位于0.17以下。这些范围可以被看作是使用这些评价指标的新模型的参考。相比之下,其余指标的数值非常分散,不可能确定一组数值作为参考。

- RQ07. 模型在训练、验证和测试中使用了多少百分比的数据?

大多数模型只使用数据进行训练和测试;然而,少数模型也使用数据进行验证。这些模型所确定的百分比如下。
- 对于训练:[60.0-83.0]%。
- 用于验证。[9.0-30.0]%
- 用于测试。[10.0-40.0]%
甚至还有一些模型,其中这些百分比是可变的,并且是动态定义的。建议中最常见的分割配置是80%用于训练,20%用于测试。

4. dicussion

下面,我们提一下文章中提出的一些想法,以便分析和考虑未来的研究。例如,交通事故不是偶然的事件,而是在空间和时间以及特定情况下发生的条件造成的事件[30]。根据[32],不利的交通特征、不利的天气条件和司机的分心都可能导致车祸。此外,对车祸严重性最重要的因素是车辆故障、不系安全带和不利的天气条件[38]。同时,还有人断言,醉酒驾驶和高速行驶是交通事故的严重因素[45],而潮湿的路面是明显增加事故率的一个条件[8]。最后,导致遭受交通事故概率最高的情况是不正常的拥堵后为挽回时间损失而采取的激进驾驶行为[6]。就他们而言,[25]的作者确定如下。高速是致命车祸中最常见的原因之一;早高峰和一周中的头几天的交通增加了仅有财产损失的车祸风险;此外,斜坡和靠近曲线是导致致命车祸的主要道路几何因素。高速和靠近弯道是导致致命伤害型车祸的主要原因;雨天雨刮器故障和年轻人不系安全带是导致伤害型车祸的最主要原因;最后,雨天夜间开车不谨慎增加了仅造成财产损失的车祸风险。

(即主要影响因素:交通速度、日历数据、道路形状、天气,对应数据类型:交通流量,?,道路基础设施,天气状况。跟最常用数据基本一致。)

关于性能,基于深度神经网络的模型随着学习数据规模的增加,其准确性、精确性和F1得分都会降低[37](?我不理解)。此外,支持向量机模型的性能取决于学习过程,所以未来的努力必须集中在调整参数值的规模和核函数的选择[42]。最后,[26]的作者断言,随着预测任务的时空分辨率的提高,预测模型的性能也会下降。关于特征,在模型中加入更多的特征并不总是能提高其性能[44]。同时,参考文献。[45]断言,较少的特征数量会影响神经网络的性能。最后,根据文献[37],从基于决策树或随机森林的模型中移除特征会产生巨大的影响,但在基于深度神经网络的模型中影响很小。

一些作者提出了一些建议;例如,将数据分割成碎片发送到计算节点可以使计算时间大大降低,这将有利于社交媒体数据的处理[24]。就他们而言,文献[19]提出,用于分离不同状态(碰撞/非碰撞)的阈值必须补偿真阳性率和假阳性率的值,而且可以通过比较不同阈值的性能来找到最佳阈值。最后,[5]的作者提出,实时交通事故预测模型的结果通过可变信息标志显示出来,或者使用车联网系统在车辆之间传输。

尽管目前模拟器提供了很多优势,但这种数据生成机制并没有像预期的那样被接受。事实上,在预测模型中,有一个明显的趋势是使用真实数据而不是模拟数据。从结果来看,我们可以注意到10个模型中只有1个使用模拟器生成的数据。因为交通事故是由一组条件引起的事件,这些条件并不总是相同的,在空间、时间和特定的情况下发生的,可以怀疑作者更喜欢不太受控制的场景,而不是由模拟器提供的数据。此外,人们注意到,有静态数据和可变数据。静态数据,如大多数司机数据、道路基础设施、兴趣点或卫星图像,可用于建立一个基础模型。相反,随时间变化的数据,如交通事故、天气状况或交通流量,可用于调整模型。

人为因素是交通事故的主要原因[49,50],最常见的人为因素(促成因素或主要因素)是驾驶时注意力不集中,因为注意力超负荷、分心或单调驾驶[51]。根据[46],年轻人比成年人更容易遭受交通事故;男性司机比女性司机更容易卷入交通事故,女性司机比男性司机更容易遭受严重伤害。很明显,人的因素在交通事故的发生和严重程度上影响并起着至关重要的作用。这一肯定在《全球道路安全状况报告》中得到了证实。报告指出,与道路使用者行为有关的因素,如超速和酒后驾车,是各国立法中需要考虑和加强的两个关键风险因素,以防止交通事故造成的死亡和伤害。一些国家,特别是高收入国家,通过采取针对所有关键风险因素的政策,减少了死亡和伤害的数量[1]。尽管我们在预防交通事故方面已经有了很大的改进,但很明显,我们现在必须把重点放在交通事故的预测领域。在我们的研究中,我们可以注意到很少有模型使用司机的数据,尽管人为因素是交通事故的主要原因之一。我们认为这可能是由于这种类型的信息的不可得性。

考虑到预测模型一般要用真实的数据进行反馈,作者主要求助于与交通或相关领域的政府机构,其次是互联网服务。从政府平台收集的信息主要与交通事故、交通流量和道路基础设施有关。从政府平台收集的信息主要与交通事故、交通流量和道路基础设施有关。互联网服务提供的信息主要与天气和光线条件以及交通事件有关。大多数互联网服务(MapQuest Traffic、Microsoft Bing Map Traffic或Twitter等)提供的API可以整合到模型中,以建立实时或延迟的信息通道。

对于交通事故预测模型来说,最具挑战性的问题之一是指望一个实时解决方案。根据一些作者[4,9,33,37]的观点,只要解决了空间异质性的不整合、长尺度数据集的不正确处理、独特数据属性的不当处理、信息不平衡和相关信息的缺乏等缺点,开发一个实时决策工具来避免交通事故是完全可行的。

正确处理长尺度数据集需要特征提取和不平衡校正。首先,处理大量的原始数据是不现实的,因此为了充分处理大数据集,有必要提取基本特征,如天气、环境类型(例如,农村公路与城市街道)、道路状况、速度限制、交通类型、司机数据和车辆类型[26]。此外,事故相关的数据比非事故相关的信息更少。因此,数据集是不平衡的,必须建立一个预测模型来纠正这种情况[32]。

考虑哪些特征是时间敏感的,时间不敏感的,以及与空间异质性有关的,也是至关重要的。对时间不敏感的数据是完全相连的,而空间异质性是一个可训练的组成部分。有可能从考虑这种特征分化类型的共同基础开始,获得一个为不同场景训练的有点通用的标准化解决方案[52]。这些数据处理策略可以使获得实时预测成为可能,这是该研究领域的下一个大挑战。

高维度问题可以使用数据处理技术来解决,通过聚类、卡方、最小冗余度-最大相关度(mRMR)和预测器重要性等方法得出相关特征。一些作者,如[28],已经研究了这种利用聚类进行降维的策略,但也可以测试其他预处理技术。

关于算法,我们能够确定分配给机器学习算法的两个阶段。预处理阶段包括排列和选择特征的任务,而分类阶段包括选择模型。对于预处理,最常见的算法是随机森林;而对于分类,最常见的算法是神经网络的一些变种(长短时记忆、卷积神经网络、深度神经网络和前馈神经网络)。这种算法的选择与应用于交通事故预测领域的深度学习模型越来越流行这一事实是一致的。大多数作者使用浅层学习算法作为基线算法来比较他们基于神经网络的模型的性能。这种趋势标志着基于学习的事故预测的研究之路。

对于分类问题,比较常用的指标是准确度、灵敏度和F1得分;同时,对于回归问题,则常采用平均绝对误差和均方根误差。然而,各种研究中使用的实验设计、数据量和结构是如此的多样化,以至于很难使用简单的评价指标来比较结果。更不用说有些建议为其评价指标提供了非标准化的数值。数据集通常是不平衡的,性能必须以背景化的方式来理解。因此,通过比较模型来找到性能最好的模型不一定是真实的,因为各研究之间的结果并不完全可比。

虽然没有精确的规则来分割训练、验证和测试的数据,但默契地建立了一个大致的数据分割配置。通过分析,我们可以确定,较高比例(超过50%)的数据用于训练,较低比例(低于50%)用于测试。建议中最常见的数据分割配置是80%用于训练,20%用于测试。一些模型甚至建立了一个低比例的数据用于验证。有人指出,没有证据或理由以这种或那种方式分割数据,也没有证据或理由说明这种数据分割配置能否提高模型的性能。由于这个缺点,我们可以建议使用数据分割方法(如SPlit[53]),而不是随机分割来获得最佳配置。

5. conclusion

这项工作的阐述使我们有可能对迄今为止基于学习的交通事故预测的研究进行回顾。需要考虑的一些最重要的观点如下。

只要有效利用大规模数据集、整合空间异质性和解决数据的高维度等问题得到解决,实时预测模型的开发是可行的。在这种情况下,这些问题的一些解决方案将被介绍如下。大规模数据集的有效处理可以通过特征提取和不平衡校正来解决;同时,数据中的高维度问题可以通过数据处理技术来解决。

现在的趋势是使用由较少控制的场景(如现实生活中)产生的真实数据,而不是由模拟器产生的数据。因此,作者选择将通常从开放和政府平台收集的真实数据与来自互联网服务的信息联系起来。此外,通过API,实时或延迟的信息渠道可以被整合到模型中。

预测模型的性能在很大程度上取决于数据的质量、算法的设置等,但也取决于数据的分割配置。尽管没有具体和准确的机制,但最根本的是要依靠一种策略来建立训练、验证和测试数据的正确比例。使用拆分方法而不是随机拆分来获得最佳配置可能是一种选择。

未来的研究必须指向使用深度学习(监督和无监督学习技术的结合)开发预测模型,并专注于使用交通事故预测中很少使用的数据源(司机的数据和行人的流动性)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值