DeepSOCIAL: Social Distancing Monitoring andInfection Risk Assessment in COVID-19 | 文献翻译

概要

保持社交距离是世界卫生组织WHO推荐的解决方案,用于在公共场所最小化病毒的传播。大多数政府和国家卫生机构已将2米的物理距离设定为在购物中心、学校和其他室内场所的强制性安全措施。本研究开发了一种混合计算机视觉和基于YOLOv4的深度神经网络DNN模型,用于利用常见的闭路电视CCTV监控摄像头在室内外环境中对人群进行自动的检测。我们所提出的DNN模型结合了改进的逆透视变换技术IPM和SORT跟踪算法,实现了稳健的人员检测和社会距离监测。该模型在研究时针对两个最全面的数据集进行了训练——微软通用对象上下文(MS COCO)和谷歌开放图像数据集。本系统在牛津市中心数据集(包含15万人的检测实例)进行了评估,与三种最先进的方法相比表现优异。评估在具有挑战性的条件下进行,包括遮挡、部分可见性和光照变化,平均精度为99.8%,实时速度为24.1帧/秒。我们还通过统计分析行人运动轨迹的时空数据和社交距离违规率,提供一个在线感染风险评估方案。我们识别出病毒传播和感染可能性高的高风险区域,这可能有助于当局重新设计公共场所的布局,或采取预防措施以降低高风险区域的风险。我们的模型是一种通用且准确的人员检测和跟踪解决方案,可以应用于诸多领域,如自动驾驶汽车、人类行为识别、异常检测、体育、人群分析或任何以人类检测为核心的其他研究领域。
关键词:社会距离、新冠病毒、人员检测与跟踪、距离估算、深度卷积神经网络、人群监测、行人检测、逆透视变换。

介绍

图1。在牛津市中心使用公共闭路电视摄像头进行人员检测、跟踪和风险评估。(a)社交距离监测;(b)红色区域表示由于违反社交距离而产生的累积感染风险。

图2。在有无社交距离要求的情况下,给定人群的感染传播率的高斯分布。

2019年12月末,新型冠状病毒(COVID-19)在中国武汉首次被公开报告。仅过了几个月,该病毒在2020年演变成了一场全球性大流行。2020年5月,世界卫生组织(WHO)宣布这一情况为全球性大流行病。2020年10月8日,WHO的统计数据显示,全球已有3600万人感染,200个国家中有1056000人死亡,这一数字令人震惊。

随着患者数量不断攀升,目前没有针对该病毒的有效治愈方法或可用治疗手段。尽管科学家、医疗机构和研究人员一直在努力研发针对这一致命病毒的适当药物或疫苗,但在本研究进行时,尚未取得确定性成功,也尚未有任何确切的治疗或预防方法来应对这一新型疾病。因此,全球都在采取预防措施以限制感染的传播。这些严峻的形势迫使全球社区寻找替代方法以减少病毒的传播。

如图1a所示,社交距离是指通过减少在封闭或拥挤的公共场所(例如学校、工作场所、健身房、演讲厅等)中人与人之间的物理接触,以防止疾病传播的预防措施,从而阻止感染风险的广泛积累(图1b)。在过去的几个月里,世界卫生组织一直认为COVID-19仅通过人们打喷嚏或咳嗽时产生的飞沫传播,病毒不会在空气中停留。然而,2020年7月8日,WHO宣布:“有证据表明,COVID-19是一种通过空气传播的疾病,可通过人们交谈或呼吸时悬浮在空气中的微小颗粒传播,尤其是在拥挤、封闭或通风不良的环境中”。因此,社交距离现在被认为比之前想象的更为重要,并且是阻止疾病传播的最佳方法之一,此外还需佩戴口罩。几乎所有国家目前都将其视为一项强制性措施。

根据WHO的定义要求,人与人之间的最小距离必须至少为6英尺(1.8米),以确保人们之间保持足够的社交距离。近期研究表明,症状轻微或无症状的人也可能是新型冠状病毒的携带者。因此,所有个体都应保持谨慎行为并遵守社交距离。许多研究(如-)已证明社交距离是一种有效的非药物方法,也是限制H1N1、SARS和COVID-19等传染病传播的重要抑制手段。

图2展示了遵循适当的社交距离指南以降低个体之间感染传播率的效果。在医疗系统服务能力范围内,更宽的高斯曲线和较低的峰值,使患者能够通过持续及时地从医疗机构获得支持来对抗病毒。任何意外的急剧峰值和快速感染率(如图2的红色曲线)将导致服务失败,进而导致死亡人数呈指数级增长。

在COVID-19大流行期间,各国政府尝试实施了多种社交距离措施,例如限制旅行、管控边境、关闭酒吧和酒馆,并提醒社会保持1.6至2米的距离。然而,监测感染传播的程度和限制措施的效率并非易事。人们仍需外出购买食品、就医或从事其他必要的工作和任务。因此,许多基于技术的解决方案(如)以及与人工智能相关的研究(如-)已尝试介入,以帮助卫生和医学界应对COVID-19的挑战并成功实施社交距离措施。这些工作包括基于GPS的患者定位和跟踪、分割以及人群监测等。在这种情况下,人工智能在促进社交距离监测方面可以发挥重要作用。计算机视觉作为人工智能的一个子领域,在解决各种复杂健康问题方面取得了巨大成功,并在基于胸部CT扫描或X光的COVID-19识别中展现出其潜力,也可以为社交距离监测做出贡献。此外,深度神经网络使我们能够从数据中提取复杂特征,从而通过分析和分类这些特征,更准确地理解图像。例如,包括诊断、临床管理与治疗,以及COVID-19的预防和控制。

该领域可能面临的挑战包括实现高精度的重要性、应对各种光照条件、遮挡以及实时性能。在本研究中,我们旨在提供解决方案以应对上述挑战。

本研究的主要贡献可以总结如下:

1、本研究旨在通过提供一种基于人工智能的解决方案,自动监测和检测个体之间的社交距离违规行为,以支持减少冠状病毒的传播及其经济成本。

2、我们开发了一个用于人员检测、跟踪和距离估计的稳健深度神经网络模型DNN模型,命名为DeepSOCIAL(3-1节至3-3节)。与该领域的某些最新工作[15]相比,我们提供了更快且更准确的结果。

3、我们通过对现场人员运动时空数据进行统计分析,实现实时和动态的风险评估(4-4节)。这将使我们能够跟踪人员的运动轨迹及其行为,分析社交距离违规行为的人数与现场总人数的比例,并检测短期和长期的高风险区域。

4、我们通过对多种室内和室外数据集进行广泛测试评估,验证了我们实验结果的有效性,这些结果优于现有技术(表3,图11)。

5、我们提出的模型可以作为一个通用的人类检测和跟踪系统,它不仅限于社交距离监测,还可以应用于各种现实世界的应用场景,例如自动驾驶车辆中的行人检测、人类行为识别、异常检测和安全系统。

更多细节和进一步信息将在以下章节中提供。在2节中,我们将讨论该领域的更多技术相关工作、现有挑战和研究空白;3节中我们将提出其方法论,包括模型架构、目标检测技术、跟踪和红区预测算法;4节中我们将研究系统的实验结果及其性能,并与现有技术进行对比;5节中我们将进行讨论并总结。

相关工作

在本节中,我们对这一领域的三种研究类型进行了简要的文献综述:医学和临床相关研究、追踪技术以及基于人工智能的研究。尽管我们的研究属于人工智能的研究范畴,但由于研究问题的性质,我们首先会对医学和技术基础的研究进行简要回顾,以便深入了解现有挑战。在2-3节基于人工智能的研究中,我们将从目标检测技术逐步过渡到人员检测,探讨现有的方法以及利用人工智能和计算机视觉进行人员检测的研究空白。

2-1医学研究

医学制药领域的许多研究人员致力于治疗COVID-19传染病,但尚未找到确切的解决方案。而控制公共场所病毒传播成为一个重要问题,人工智能、计算机视觉可以在此方面提供帮助。

一些现有研究采用不同的实施策略[5,6,20],证明控制流行趋势是一个关键因素,而保持社交距离是减少病毒传播和防止其在社会中扩散的有效方法。一些研究人员[20,21]使用易感者-感染者-康复者模型SIR,它是一种流行病学建模系统,用于计算在特定人群中随时间推进而感染传染病的人数。一个最古老且常见的SIR模型是1927年引入的Kermack和McKendrick模型[22]。Eksin等人[21]最近引入了一种改进SIR模型,加入了社交距离参数,可用于确定感染和康复人数。

关注社交距离的实践的有效性可以通过几种标准方法进行评估。一个主要标准是基于基本再生数Ro,它表示在感染期间一个感染者平均可能感染的人数[23]。Ro>1表明社会中感染率在增加,而Ro<1则表明每个病例感染的人数少于1人,即疾病在目标人群中是下降的。

由于Ro值表明了疾病的传播范围,因此它是选择社交距离标准的最重要指标之一。在当前的COVID-19大流行中,世界卫生组织估计Ro率在2–2.5之间[14],这显著高于其他类似疾病,例如季节性流感(Ro = 1.4)。在[11]中,研究者得出了关于在Ro值较高时应用社交距离的重要性的明确结论。

在另一项基于经典SIR模型的博弈论研究中,对社交距离的效益和经济成本进行了评估[24],结果表明,在Ro<1的情况下,社交距离会导致不必要的成本,而Ro≈2则意味着社交距离措施具有最高的经济效益。在另一项类似的研究中,Kylie等人[25]研究了社交距离严格程度与地区经济状况之间的关系,研究表明尽管防止病毒大规模爆发是必要的,但需要允许一定程度的社交活动。Prem等人[26]则使用特定地点的接触模式,通过易感者-暴露者-感染者-移除者模型SEIR研究社交距离措施对COVID-19大流行流行趋势的影响,以试图消除疾病持续爆发的路径。

2-2追踪技术

自冠状病毒大流行开始以来,许多国家采用了基于技术的解决方案,以抑制疾病的传播[12,27,28]。例如,一些发达国家,如韩国和印度,使用GPS数据来监测感染或疑似病例的行动轨迹,以发现健康人群中的任何可能暴露情况。

印度政府通过Aarogya Setu计划,利用GPS和蓝牙技术,发现相邻区域的COVID-19患者,这有助于其他人与感染者保持安全距离[29]。一些执法机构使用无人机和监控摄像头来检测大规模集会,并采取措施驱散人群[30,31]。

其他研究人员如Xin等人[32],通过识别相位差异和幅度波形变化,利用无线信号进行人员检测。然而这需要多个接收天线,并且无法轻松集成到所有公共场所。

2-3基于AI的研究

图3。在MS-COCO和PASCAL-VOC数据集上,八种最受欢迎的目标检测模型的平均精度均值mAP和速度FPS概览。

人工智能、计算机视觉和机器学习的利用可以帮助发现高级特征之间的相关性。例如,通过分析时空视觉信息和图像序列的统计数据分析,它可以让我们理解并预测交通场景中的行人行为、体育活动、医学成像或异常检测[13,19]。

在AI-健康相关研究中,一些研究人员试图预测特定区域的疾病趋势[33],开发公共场所的人群计数和密度估计方法[34],或利用视觉和地理定位蜂窝信息的组合来确定个体与人群的距离[35]。然而,这些研究工作面临着诸如熟练劳动力或设计和实施基础设施成本的挑战。

另一方面,计算机视觉、深度学习和模式识别作为人工智能的子领域,使计算机能够理解和解释来自数字图像或视频的视觉数据。它还允许计算机识别和分类不同类型的物体[36–38]。这些能力在增强、鼓励和执行社交距离监控和测量方面也可以发挥重要作用。例如,计算机视觉可以将现有的闭路电视监控摄像头转变为“智能”摄像头,它不仅可以监控人群,还可以判断人们是否遵守社交距离指南。这种系统需要非常精确的人员检测算法。

在图像序列中检测人员是目标检测和计算机视觉领域最重要的分支之一。尽管在人员检测[39]和人员行为识别[40]方面已经进行了许多研究工作,但大多数研究要么仅限于室内应用,要么在户外复杂光照条件下存在准确性问题。其他一些研究依赖于手动调整方法来识别人员活动,然而这种方法一直存在功能有限的问题[41]。

卷积神经网络CNN在特征提取和复杂目标分类(人员检测)方面发挥了非常重要的作用。随着更快的CPU、GPU和扩展内存容量的发展,CNN使研究人员能够开发出比传统模型更准确、更快速的检测器。然而,长时间训练、检测速度和提高准确性仍然是需要解决的挑战。Narinder等人[15]使用基于深度神经网络DNN检测器,并结合Deepsort[42]算法作为人员检测的对象跟踪器,以评估距离违规指数,即违反社交距离措施的人数与评估总人数的比率。然而,他们没有提供其结果的统计分析。此外,也没有关于距离测量有效性的讨论。

在Khandelwal等人[43]的另一项研究中,作者解决了特定工厂中的人员间距问题。他们使用MobileNet V2网络[44]作为轻量级检测器以降低计算成本,但这与其他一些常见模型相比,准确率较低。此外,该方法仅关注室内工厂设置的距离测量,并未对病毒传播进行任何统计评估。与另一项研究[45]类似,作者在距离测量结果上没有进行统计分析。他们比较了两种常见的DNN模型(YOLO和Faster RCNN),但系统准确率仅基于对不同数据集的浅层比较,且这些数据集的真值不可比。

图3展示了我们在平均精度均值(mAP)和速度(每秒帧数—FPS)方面的调查和审查结果,这些结果来自一些最成功的对象检测模型,如RCNN[46]、Fast RCNN[47]、Faster RCNN[48]、单次多框检测器SDD[49]、YOLOv1-v4[50–53],这些模型在是数据集MS-COCO[54]和PASCAL-VOC[55]上进行了测试,测试条件相同。系统的性能可能会因各种因素而有所不同,例如骨干架构、输入图像大小、分辨率、模型深度、软件和硬件平台。

从图3可以看出,某些模型(如SSD和YOLOv2)在处理COCO和VOC12数据集时表现出矛盾特性。它们在一个数据集上表现良好,而在另一个数据集上则表现较弱。这种差异的一个可能原因是COCO和VOC12数据集包含的对象类别数量不同(分别为80类和20类)。这使得VOC12数据集在学习目标上相对容易,挑战性也较小。然而,当面对更多类别时,系统的性能可能会显得不稳定,这取决于每个对象的特征复杂性。

由于社交距离这一主题相对较新,目前关于人群检测和人际距离估计的准确性研究还较少。尚未在具有挑战性的数据集上进行实验,也未在常见数据集上进行标准比较,更没有在人群检测阶段之后进行分析研究或后处理,以分析感染风险的分布。

鉴于上述研究空白,我们提出一种新的模型,该模型不仅比现有技术更准确、更快速,还将使用一个庞大且全面的数据集进行训练和测试,涵盖具有挑战性的环境和光照条件。这将确保该模型能够在真实场景中运行,尤其是在照明条件不如户外理想的室内购物中心。此外,为了减少病毒传播,我们还提供了检测后和处理后的分析解决方案。

框架模型

我们提出一个包含人员检测、跟踪和人际距离估计的三阶段模型,作为社交距离监控和基于区域的感染风险分析的完整解决方案。该系统可以集成并应用于所有类型的闭路电视(CCTV)监控摄像头,支持从VGA到全高清(Full-HD)的任何分辨率,并具备实时性能。

3-1人员检测

图4。第一阶段——人员检测模块的整体结构。

表1。设计基于卷积神经网络模型CNN的最新思想和技术,从左到右表示输入到输出。

图4展示第一阶段的整体结构。闭路电视(CCTV)摄像头采集输入视频序列,并将其传递给我们的深度神经网络模型。模型的输出是场景中被检测到的人员及其独特的定位边界框。目标是开发一个鲁棒的人员检测模型,能够应对各种类型的挑战,例如服装变化、姿势变化、远近距离、遮挡与否以及不同光照条件。

现代基于深度神经网络DNN的目标检测器(图3中列出)由三个部分组成:输入模块及其相关操作(如增强)、用于提取特征的骨干网络、用于预测输出中目标类别和位置的头部。

表1中列举了一份全面的模型设计选项清单,包括输入增强、最先进的核心目标检测模块,即激活函数、骨干特征提取器、颈部和头部。该表提供了颈部、头部和其他子模块根据模型需求的多种可能选择。当然,我们主要关注本研究的需求。

3-1-1输入及训练数据集

为了构建一个鲁棒的检测器,我们需要一套丰富的训练数据集。这套数据集应包含各种性别和年龄(男性、女性、男孩、女孩)的人群,并附有数百万个准确的注释和标签。我们选择了MS-COCO和Google Open Image这两个大型数据集,它们满足上述期望,提供了超过370万个人员的注释。更多细节将在第4节(模型训练和实验结果)中提供。

在YOLOv4中,作者针对网络的不同部分提出了两类训练选项:“免费包”,包括一系列改变模型训练策略的方法,旨在提高模型的泛化能力;以及“专业包”,包括一系列模块,可以在略微增加训练成本的情况下显著提高目标检测的准确性。

在“免费包”的各种技术中,我们采用了Mosaic数据增强方法[53],它将四张图像整合为一张,从而在不需要增加批量大小的情况下增加了输入数据的规模。

另一方面,在批量归一化中,批量大小的减少会导致均值和方差估计的噪声增加。为了解决这一问题,我们考虑使用前k次迭代的归一化值而非仅依赖于单个小批量,它类似于跨迭代批量归一化CBM[95]。

表1中列出了“免费包”可能使用的激活函数。我们还研究了我们的模型在ReLU、Leaky ReLU、SELU、Swish、Parametric ReLU和Mish等激活函数下的性能。我们的初步评估确认了Misra[86]为我们的人类检测应用提供的相同结果。Mish激活函数(公式(1))比Swish和ReLU更快地收敛到最小损失,并且具有更高的准确性,尤其是在参数初始化器的多样性、正则化方法以及较低的学习率值方面。Mish公式如下:

求导可得:

作为一种自正则化的非单调激活函数,其中:

3-1-2骨干架构

表2。使用RTX 2070 GPU时,三种骨干模型在参数数量和速度方面的比较。

如图3所示,YOLOv4在多类别目标检测任务中提供了速度和精度的最佳平衡;然而,由于YOLOv4是多种技术的集合,我们对每种子技术进行了深入研究,以实现同类人员检测模型的最佳效果,并超越现有技术。

提高基于卷积神经网络(CNN)检测器精度的一种基本方法是通过增加更多层来扩展感受野(神经元或网络能够感知和处理的输入区域范围)并增强模型的复杂性,然而这种方法会使模型更难训练。我们建议使用跳跃连接技术来简化训练过程。许多模型采用类似的策略在层之间建立连接,例如跨阶段部分CSP连接或DenseNet中的密集块(包含批量归一化、ReLU、卷积等)。这些模型也被用于设计一些最近的骨干架构,例如CSPResNeXt50、CSPDarknet53和EfficientNet-B3,这些是我们为YOLOv4支持的架构选项。

表2总结了我们对上述骨干架构的调查报告,包括参数数量和处理速度(以fps为单位),输入尺寸均为512×512。

基于文献的理论依据以及我们的多次实验,我们得出结论,尽管参数数量增加会导致复杂性增加,CSPDarknet53仍是我们应用中最优的骨干模型。参数数量的增加使模型在检测多个目标时具有更强的能力,同时我们仍能保持实时性能。

3-1-3颈部模块

图5。基于YOLO的头部模块在不同尺度上的应用

最近,一些最新提出的模型在骨干网络和头部模块之间添加了额外层,我们称为颈部模块,用于从骨干网络的不同阶段收集特征。

颈部模块包含多个自顶向下和自底向上的路径,用于在网络的不同层中收集和组合参数,以为头部模块提供更准确的图像特征。许多基于CNN的模型使用全连接层进行分类,因此只能接受固定尺寸的图像作为输入。这可能导致两种问题:一、我们无法处理低分辨率图像;二、检测较小目标会变得困难。这与我们的目标相矛盾,我们希望模型能够适用于任何监控摄像头的任何输入图像尺寸和分辨率。为应对第一个问题,我们可以参考现有的方法,例如全卷积网络FCNs。这类模型(包括YOLO的最新版本)没有全连接层,因此可以处理不同尺寸的图像。然而,为了应对第二个问题(即处理小目标),我们采用了金字塔技术来增强感受野,并从骨干网络中提取不同尺度的图像,最终在头部部分进行多尺度检测。

在深度神经网络DNNs中,底层(前几层)提取局部模式和纹理信息,逐步构建顶层所需的语义信息。然而在特征提取过程中,一些可能对模型微调所需要的局部信息可能发生丢失。在PANet方法中,底层的信息流被添加到顶层以增强局部信息,因此可以期待更好的微调和预测效果。在Bochkovskiy等人的最新研究中,研究表明,连接操作符比加法操作符更能保持局部信息并将其传递到顶层。

为了进一步增强感受野并提高对小目标的检测能力,我们考虑使用YOLO特征金字塔网络模块FPN进行多尺度检测,该模块从骨干网络中提取不同尺度的特征。相关文献通过空间金字塔池化层模块SPP替换FPN以改进YOLOv3,这使得在MS-COCO目标检测任务中的AP50提高了2.7%。改进SPP使用最大池化操作代替“词袋”操作以解决空间维度问题,并在头部模块处理多尺度检测。该方法应用一个k×k的最大池化核,k={1, 5, 9, 13},步长为1。

第4节我们将检验这种方法在提高我们基于YOLOv4模型的准确性方面的效率。图5展示了我们在网络中用于不同尺寸目标检测的多尺度头部模块。

通过对各种配置进行实验,我们为模型的颈部模块采用空间金字塔池化SPP、PAN以及空间注意力模块SAM[98],这些模块共同构成了一个最有效、最一致且最稳健的组件,以帮助模型专注于优化参数。

3-1-4头部模块

图6。我们所提出的三级人员检测模块的网络结构。

深度神经网络DNN的头部模块负责对目标(例如人员、椅子等)进行分类,同时计算目标大小以及相应边界框坐标。

通常有两种类型的头部模块:单阶段密集型和双阶段稀疏型。双阶段检测器在应用分类之前使用区域提议。首先,检测器通过选择性搜索提取一组目标提议的候选边界框。然后,它将这些提议调整为固定大小,再输入到卷积神经网络CNN中,类似于基于R-CNN的检测器[46–48]。尽管双阶段检测器准确性较高,但这些方法并不适合计算资源受限的系统[99]。

另一方面,单阶段检测器执行统一的检测过程。它们将图像像素映射到封闭网格中,并检查每个网格单元中存在目标的概率。类似于Liu等人完成的工作SSD或者Redmon等人[50–52]和Bochkovski等人[53]完成的工作,被称为YOLO检测器。这些检测器使用回归分析来计算边界框的尺寸,并解释其类别概率。这种方法在速度和效率方面提供了显著提升。

在模型头部,我们使用与YOLOv3相同的配置。类似于其他许多基于锚框的模型,YOLO使用预定义的框来检测多个目标。然后,目标检测模型将被训练以预测每个生成的锚框所属的特定类别。之后,将使用偏移量调整锚框的尺寸,以更好地匹配真实数据,基于分类和回归损失进行调整。

假设网格单元的参考点(cx, cy)位于目标图像的左上角,边界框先验的宽度和高度为(pw, ph),网络将预测一个位于中心(x̂, ŷ)且大小为(ŵ, ĥ)的边界框,对应的偏移量和比例因子为(bx, by, bw, bh),具体如下:

其中σ是范围在0到1之间的Sigmoid置信度得分函数。我们使用一个四元组(x, y, w, h)表示“人类”这一类别,其中(x, y)是边界框的中心点,而w和h分别是宽度和高度。

我们使用三个锚框在每个网格单元中检测最多三个人。因此总通道数为18:(1个类别+1个目标+4个坐标)×3个锚框。由于每个空间位置有多个锚框,一个目标可与多个锚框相关联。此问题可通过使用非极大值抑制技术NMS以及计算交并比IoU来限制锚框的关联来解决。

作为权重调整和损失最小化操作的一部分,我们使用完全交并比CIoU(公式(7))而不是基本的交并比IoU(公式(6))。CIoU不仅比较候选边界框与真实边界框的位置和距离,还比较生成边界框的宽高比与真实边界框的宽高比。

B^gt=(x^gt, y^gt, w^gt, h^gt)是真实边界框,B=(x, y, w, h)是预测边界框。我们不仅将完全交并比CIoU用作检测指标,还将其用作损失函数:

其中ρ是真实边界框B^gt和预测边界框B之间的欧几里得距离。c表示能够同时包围两个边界框B和B^gt的最小边界框的对角线长度,α是一个正的权衡参数:

其中v用于衡量宽高比的一致性,具体如下:

即使是零重叠的情况,损失函数仍为我们提供如何调整权重的指示:首先将宽高比收敛到1,其次减少候选边界框与真实边界框中心之间的误差距离。类似的距离交并比方法D-IoU在文献[100]中被用于另一个应用。

为了防止过拟合问题,我们评估了一些常见的正则化技术,如表1所示。与文献[101]中的结果类似,我们发现DropBlock(DB)是与其他选项相比最有效的正则化方法之一。

此外,类标签平滑[102]通过降低模型在训练阶段的置信度,也有助于防止过拟合。

图6总结了人员检测模块的三级结构,由一系列相互连接的组件组成。在输入部分,对输入图像应用了Mosaic数据增强MDA、类标签平滑CLS和DropBlock正则化DB。在检测部分,使用了Mish激活函数,并将CIoU指标作为损失函数。在预测部分,每个层级的单元格中,锚框包含用于定位边界框、目标的置信度以及目标对应类别的信息。我们总共有九个锚框。

3-2人员跟踪

图7。人员检测、身份分配、跟踪及运动轨迹表示。

检测阶段的下一步是人员跟踪以及为每个人分配身份标识ID。我们使用简单在线实时SORT跟踪技术[103]作为卡尔曼滤波器[104]的框架,并结合匈牙利优化技术来跟踪人员。卡尔曼滤波器根据时间t的当前测量值以及人类运动的数学建模,预测时间t+1时人的位置。这是一种在遮挡情况下持续定位人类的有效方法。

匈牙利算法是一种组合优化算法,它通过检查当前帧检测的人是否与前一帧检测的人相同,以帮助为一组图像帧中的给定对象分配唯一的ID号码以识别该对象。

图7(a)展示了人员检测和ID分配的示例,图7(b)描绘了每个人的跟踪路径,图7(c)显示了在经过100帧的检测、跟踪和ID分配后,每个人最终的位置和状态。我们随后利用这些时间信息来分析社交距离违规的程度以及场景中的高风险区域。每一帧中每个人的状态被建模为:

其中(u, v)表示目标边界框(质心)的水平和垂直位置,s表示边界框的尺度(面积),r表示边界框边长的宽高比。u0​、v0和s0​是卡尔曼滤波器分别对应水平位置、垂直位置和边界框质心的预测值。

当一个已识别的人与新观测结果相关联时,当前的边界框将根据新观测到的状态进行更新,这一更新将基于卡尔曼滤波器框架估计的速度和加速度分量来计算。如果查询个体的预测身份与新观测结果存在显著差异,则几乎会直接使用卡尔曼滤波器预测的状态,且几乎不进行修正。否则,修正权重将在卡尔曼滤波器的预测和新的观测结果(测量值)之间按比例分配。

如前所述,我们通过计算交并比IoU(公式(6))及实际输入值与卡尔曼滤波器预测值之间的距离(差异),使用匈牙利算法来解决数据关联问题。

在检测和跟踪过程之后,对于在时间t时的每个输入帧 I_(w×h),我们定义矩阵Dt​,该矩阵包含在图像载体网格中检测到的n个人的位置:

3-3人际距离估计

立体视觉是一种流行的距离估计技术,例如在文献[105]中有所应用;然而,在我们的研究中,当目标是整合一种高效且适用于所有公共场所的解决方案时,仅使用基本的闭路电视(CCTV)监控摄像头,这种方法并不可行。因此,我们坚持采用单目解决方案。

另一方面,使用单个摄像头时,三维世界场景投影到二维透视图像平面上会导致物体之间的像素距离不真实。这种现象被称为透视效应,我们无法在整个图像中感知到均匀分布的距离。例如平行线会在地平线处相交,离摄像头较远的人会比靠近摄像头坐标中心的人显得更矮。

在三维空间中,每个边界框的中心或参考点与三个参数(x, y, z)相关联,而从摄像头接收到的图像中,原始的三维空间被简化为二维的(x, y),深度参数(z)不可用。在这种降维空间中,直接使用欧几里得距离标准来估计人与人之间的距离将是错误的。

为了应用校准的逆透视映射IPM转换,我们首先需要进行相机校准,通过设置z = 0来消除透视效应。我们还需要知道相机的位置、高度、视角以及光学规格(即相机的内参)[104]。

通过应用IPM,二维像素点(u, v)将被映射到对应的世界坐标点(Xw, Yw, Zw):

其中R是旋转矩阵:

其中T是平移矩阵:

其中K是摄像头的内参矩阵:

其中h是摄像头高度,f是焦距,ku和kv分别是水平和垂直像素单位中测量的校准系数值。(cx, cy)是主点偏移,用于校正图像平面的光轴。

摄像头通过将三维世界坐标点投影到视网膜平面上来生成图像。使用齐次坐标,三维点与投影后的图像点之间的关系可以表示如下:

其中M∈R^(3×4)是变换矩阵,元素为公式(16)中的mij​,用于根据摄像头的位置和参考坐标系将世界坐标点映射到图像点。这一映射过程由摄像头内参矩阵K(公式(15))、旋转矩阵R(公式(13))和平移矩阵T(公式(14))提供。

考虑到摄像头图像平面垂直于世界坐标系中的Z轴,上述方程的维度可以简化为以下形式:

最终从透视空间到逆透视空间(俯视图BEV)的转换也可以用以下标量形式表示:

模型训练与实验结果

本节中我们将讨论用于训练人员检测模型的步骤以及调查数据集,随后展示关于人员检测、社交距离措施以及感染风险评估的实验结果。

4-1模型训练

图8。四个常见数据集中每个类别的注释框数量,水平轴采用对数刻度以提高可读性。

图9。Open-Images数据集中标注图像的示例。

我们调查了四个常见的多目标注释数据集,包括PASCAL-VOC[55]、Microsoft-COCO[54]、ImageNet-ILSVRC[106]和Google-Open-Images-Datasets-V6+[107],后者包含600个类别中的1,600万个人工标注的边界框。该数据集汇集了19,957个类别,其中大部分类别适合于人员检测和识别。数据集通过在每张图像上标注边界框标签及其对应坐标进行注释。

图8展示了每个数据集中每个类别按边界框数量排序的排名。Google-Open-Images数据集GOI中,“Person”类别排名第四,拥有近10^⁶个标注的边界框,比其他三个调查的数据集更丰富。除了“Person”类别外,我们还从GOI数据集中选择了“Man”、“Woman”、“Boy”和“Girl”四个类别,用于“人员检测”训练目的。这使得我们使用的样本总数达到3,762,615个,其中包括来自COCO数据集的257,253个样本和来自GOI数据集的3,505,362个样本。

我们还考虑了人体部位的类别,例如腿部,因为我们认为这可以使检测器学习到关于人类的更一般性的概念,尤其是在遮挡情况或部分可见的情况下(例如在输入图像的边缘,个体的全身无法被感知)。

图9展示了Open-Images数据集中标注图像的示例。该图说明了标注人员的多样性,包括大尺寸和小尺寸的边界框、与摄像平面的远近距离、人员遮挡,以及阴影和光照条件的变化。

为了训练所开发的模型,我们采用了一种迁移学习方法,使用在Microsoft-COCO数据集[54]上预训练的模型,并随后对基于YOLO的模型进行微调和优化。

我们还使用了带有Warm Restarts的随机梯度下降SGD[108]来在训练过程中改变学习率。这有助于跳出解空间中的局部最小值,并节省训练时间。该方法最初考虑一个较大学习率,然后在中途减缓学习速度,最终为每个批次逐步降低学习率,呈现出微小的下降趋势。我们通过余弦退火函数为每个批次降低学习率,如下所示:

其中ηt​是第i次运行中的当前学习率,ηmin​和ηmax​是目标学习率的最小值和最大值。Tcur是自上次重启以来执行的轮数,而Ti是自SGD重启以来完成的轮数。

4-2性能评价

表3。在牛津市中心数据集上,七种深度神经网络模型DNN的准确性、召回率和速度比较。

图10。DeepSOCIAL模型在Open-Images数据集上的训练损失和验证损失。

图11。DeepSOCIAL模型在三个不同数据集上的检测性能,从640×480的低分辨率到1920×1080的高清分辨率。(a)牛津市中心[31](b)商场数据集[109](c)火车站[110]。

图12。部分可见性下的人体检测(缺失上半身部分)。(a)DeepSOCIAL(b)在MS-COCO上训练的YOLOv4(c)YOLOv3(d)牛津市中心数据集OTC的真实标注。

为了测试所提出模型的性能,我们使用了牛津市中心数据集OTC[31],这是一个之前未见过且具有挑战性的数据集,其中包含了频繁的遮挡、重叠和拥挤区域的情况。该数据集还包含在真实世界公共场所中人类样本在服装和外观方面的良好多样性。

为了为基于YOLO的模型性能分析提供类似的条件,我们在GOI[107]数据集的人类类别上对每个模型进行了微调。这是通过移除每个模型的最后一层,并添加一个新层(使用均匀概率分布的随机值)来实现二元分类(人类的存在或缺失)。此外为了在速度和泛化能力方面提供平等的条件,我们还将每个训练好的模型与OTC数据集[31]进行了测试。

我们使用计算机视觉中目标检测的三个常见指标(精确率、召回率和每秒帧数FPS)对开发的模型与三种最先进的人员/目标检测方法进行了评估和比较。

所有基准测试和比较均在同一硬件和软件上进行:基于Windows 10平台,配备Intel© Core™ i5-3570K处理器和NVIDIA RTX 2080 GPU显卡,CUDA版本为10.1。

在系统的广泛部署方面,上述硬件配置可以处理多达10个输入摄像头,用于实时监控大型购物中心的不同楼层和角度。然而,对于较小规模的应用,一个较便宜的RTX 1080 GPU或一个8核/16线程的第10代Core™ i7 CPU就足以实现实时性能。

图10展示了我们的DeepSOCIAL模型的四个不同版本在训练阶段和验证阶段的损失函数的发展情况,这些版本采用了不同的骨干结构。图表确认了在1090个周期后,DS版本在最小化损失函数方面实现了快速且平稳稳定的过渡,我们达到了训练和验证损失的最优平衡点。表3提供了每个骨干结构的详细信息以及在OTC数据集上与另外三种最先进的模型的实验结果对比。图11展示了所提出的检测器在三个具有挑战性的室内外公共数据集中的鲁棒性:牛津市中心数据集、商场数据集和火车站数据集。

有趣的是,Faster-RCNN模型展现了良好的泛化能力;然而,其低速度是一个问题,这似乎是因为“区域提议”技术的计算成本。由于系统需要实时性能,任何速度低于10fps或准确度较低的模型可能都不适合用于社交距离监测。因此,尽管SSD和Faster-RCNN在其他应用中很受欢迎,但它们在此次基准评估中未能通过。

基于YOLOv3和YOLOv4的DeepSOCIAL-X方法与其他模型相比提供了相对较好的结果,最终,我们所提出的DeepSOCIAL-DS模型在速度和准确度方面均超越了所有评估的模型。图12提供了在人员进入或退出场景时具有挑战性情况的样本画面,此时只有部分身体(例如他们的脚)是可见的。该图清楚地表明了DeepSOCIAL与最先进的方法相比在第(a)行中的优势。底部第(d)行用蓝色边界框显示了真实情况,而一些具有部分可见性的人甚至在原始真实数据集中也没有被标注。第(c)行,YOLOv3显示了更多的检测结果;然而建议的边界框的IoU较低,其中一些可以被视为假阳性。第(b)行,基于YOLOv4的标准检测器与第(c)行相比有显著改进,被认为是次佳方法。第(a)行,DeepSOCIAL比次佳方法多10个真阳性检测(用竖直箭头突出显示)。

尽管DeepSOCIAL模型在部分可见性和截断目标等具有挑战性的情况下也显示出优越结果,但仍可能存在一些进一步的挑战,例如极端光照条件下的检测和镜头畸变效应,这些可能会影响模型的性能,这需要进一步的调查和实验。遗憾的是,在本研究进行时,尚未存在这种数据集供我们评估。

4-3社交距离评价

图13。3-1节至3-3节为人员检测、跟踪和距离估计所采取的步骤总结。

图14。针对结对人员个体的社交距离违规检测。(a)成对人员检测示例——橙色边界框(b)三种检测类型:安全、违规、结对。

图15。来自OTC数据集的900帧中检测到的人数的二维记录,以及是否违规的结对人数。

我们将检测到的边界框底部边缘的中点视为参考点(即鞋子的位置)。经过逆透视映射IPM,我们期望在鸟瞰图BEV的齐次空间中获得每个人的精确位置,并以线性距离表示。

在BEV空间中,如果任意两个人Pi和Pj的欧几里得距离小于设定的限制距离r,则被视为社交距离违规的参与者:根据重叠类型和违规评估标准,我们定义了一个违规检测函数V,其输入参数包括像素度量ξ、设定的安全距离r(例如2米)、查询人物Hq的位置以及最近的周围人物Po​的位置。

其中ξ表示在BEV空间中表示1.0米长度的像素数量。

图13左侧(牛津市中心数据集[31])展示了检测到的人员,以及我们为估计人与人之间的距离所采取的步骤,包括跟踪、IPM、齐次360°距离估计、安全移动(绿色圆圈中的人)以及违规人员(重叠的红色圆圈):

关于OTC数据集,BEV空间中每10个像素相当于现实世界中的98厘米。因此,r≈2×ξ,等于20个像素。人与人之间的距离测量基于欧几里得L2范数距离(公式(21))。

我们从卫生部门收到的一个具有争议的观点是如何在社交距离监测中处理家庭成员和情侣。一些研究人员认为社交距离应适用于每个单独的个体,没有任何例外;而另一些研究人员则建议情侣和家庭成员可以在不被视为违反社交距离的情况下近距离行走。在一些国家,例如英国和欧盟地区,指南允许两名家庭成员或情侣一起行走而不被视为违反社交距离。我们也考虑了一种激活情侣检测的解决方案。这在我们旨在基于整体运动和社交距离违规的统计分析来识别风险区域时(从中期到长期,例如几小时到几天)将非常有帮助。

采用时间数据分析方法,若两个人pi和pj在相邻位置且相距小于d米,持续时间超过ϵ秒,则我们将他们视为一对情侣。例如,图14(a)中,我们识别出那些在相同运动轨迹中相距不到1米且持续时间超过ϵ=5秒的人:

图14(b)展示了我们在场景中检测到的结对情侣的示例,以及多起社交距离违规的情况。为被诊断为情侣的人绘制的黄色圆圈半径为 (2+2dc​​) 米,以确保他们与左右邻居之间至少有2米的最小安全距离。dc​是情侣成员之间的距离。如果在相邻的情侣之间或情侣与个体之间发生违规行为,所有涉及的人将被标记为红色状态,无论他们是否为情侣。

我们算法在考虑不同场景类型的灵活性,使得政策制定者和卫生部门能够对感染传播进行不同类型的调查和评估。例如,图15来自OTC数据集,提供了关于每帧中人数、未遵守社交距离的人数以及不将情侣组计入违规的社交距离违规次数的基本统计数据。

关于情侣组,我们达到了98.7%的准确率和23.9fps的召回率,这略低于我们在表3中正常人员检测的结果。这在意料之中,因为跟踪并排的两个人以及可能更复杂的遮挡场景增加了复杂性。

4-4基于区域的风险评估

图16。500帧后的累积跟踪图。蓝色指低风险区域,红色指高风险区域。

图17。基于人员检测、跟踪、移动以及社交距离违规的数据分析。

图18。单帧VS长期人群地图(2D、BEV、3D)。

我们还测试了模型在评估人员长期行为方面的有效性。这对于卫生部门的决策者和管理者来说具有重要价值,能够帮助他们及时做出决策,挽救生命并减少后续成本。我们实验提供了非常有趣的结果,这些结果对于在感染率失控和意外上升之前进行控制至关重要。

除了人员间距测量,我们还通过跟踪和记录人员运动轨迹、每个区域的密度、违反社交距离措施的总人数、每个人以及整体的违规总时长、识别高风险区域,并最终创建一个信息丰富的风险热力图,进行了长期的时空区域统计分析。

为了进行分析,我们创建了一个二维网格矩阵Gt​∈R^(w×h)(最初填充为零)用于通过输入图像序列记录个体的最新位置。Gt表示时间t时矩阵的状态,而w和h分别是输入图像I的宽度和高度。

为了考虑环境噪声并更好地可视化预期的热力图,每个人被关联到一个3×3的高斯核k:

其中i和j表示每个人p的预测边界框的中心点。

网格矩阵G将在每个新帧中更新,并累积检测到人员的最新信息。

图16展示了连续500帧人员检测后累积跟踪图的示例。由于COVID-19是一种通过空气传播的病毒,任何人在固定位置的呼吸都可能增加该点的污染密度(假设该人可能携带COVID-19),尤其是通风条件较差的封闭场所。因此我们可为处于稳态的人员分配更高的污染权重。

图16(a)、16(b)展示了两个案例,其中两个人在网格的两个特定位置停留了较长时间;因此,这些位置的热力图变为红色。由于人流量较大,人行道的热力图强度比街道中间更高。总体而言,更红的网格表示风险可能更高的区域。

除了人员的原始运动和跟踪数据外,分析那些特别违反社交距离措施的人员的密度和位置将更有益处。为了获得一套全面的信息,我们旨在基于累积检测、运动、稳态人员和社交距离违规总次数的组合,呈现环境的长期热力图。这有助于识别风险区域,重新设计环境布局以使其更安全,或者对特定区域施加更多限制,如限制进入。限制规则可能因应用场景和环境性质而异(医院和学校的情况可能不同)。

根据公式(20)中的社交距离违规标准,我们将每个人归类为以下类别之一:

1、安全者:遵守社交距离的所有人员(绿色圆圈)。

2、高风险者:违反社交距离的所有人员(红色圆圈)。

3、潜在风险者:那些一起移动并被识别为成对的人(黄色圆圈)。只要组中的两个人没有与周围人违反社交距离措施,他们就被视为一个身份。

我们还使用一个三维违规矩阵S∈R^(w×h×3)记录每个人违规的位置及类型(红色或黄色)。

其中R、T和Y分别表示违规情况、被追踪人员和情侣。α、β和δ是相对系数,可根据每种因素在病毒传播中的重要性,由相关的健康研究设定。
为了可视化安全区和红区的三维热图,我们按照公式(28)对收集到的数据进行归一化处理:

其中X是未归一化的值,l和u是归一化矩阵的下限和上限,我们用它来定义HSV通道上的色调范围。
图17展示了所讨论实验的可视化结果,包括对OTC数据集在HSV色彩空间的跟踪、二维和三维风险区分析热图。

图17(b)展示了2500帧后通过人群的追踪路径。图17(b)描绘了仅包含社交距离违规人群的马赛克热图。图17(b)显示了社交距离违规和追踪的综合热图。图17(d-f)展示了长期追踪、违规行为以及混合热图的俯视图。图17(g–i)是第二行中相同热图的三维表示,以便更好地可视化安全区域和风险区域。上述配置采用的是累积方法,即将所有违规行为和危险行为汇总在一起,以突出显示通风不良的覆盖区域中潜在的危险区域。

我们也考虑了通风良好的情况,在这种情况下,病毒传播不一定是累积的。在这种情况下,我们根据每个人在图像的每个网格单元中停留的总时间,以及个体的总缺席时间(这可能使污染水平降低),考虑了增加和减少计数的情况。

图18(我们称之为人群图)展示了应用了增加和减少污染趋势的违规和风险热图的二维和三维表示。图像的第一行代表单帧分析,有两个峰值区域。可以看出这些区域属于两个拥挤区域,两组人群一起行走并违反了社交距离规则。然而,在街道的其他部分,识别出的风险水平很低。这是由于人际距离较大以及随后的允许呼吸的时间间隔共同降低了污染率。

图18的第二行展示了不依赖当前帧的长期人群图。这可以是对所有先前单帧人群图的加权平均。图17和图18中的一个额外研究问题是,如何在公式(28)中定义适当的平均权重和系数(α、β、γ),以及如何随时间对地图进行归一化。这超出了本研究的范围,需要进一步研究。然而,我们的目标是展示使用所提出的方法考虑多种情况的可行性,并借助人工智能和计算机视觉,在社交距离监测和风险评估中实现高置信度和高精度。本研究中呈现的数据可在我们的GitHub存储库中公开获取。如需更多信息,请参阅补充材料。

结论

我们提出了一种基于深度神经网络的人类检测模型——DeepSOCIAL,用于在公共场所检测和跟踪静态和动态人群,以监测新冠疫情时代及以后的社交距离指标。我们评估和研究多种最先进的模型架构,包括骨干网络、颈部模块和头部模块。我们采用了CSPDarkNet53作为骨干网络,并结合SPP/PAN和SAM颈部模块、YOLO头部模块以及Mish激活函数。我们还在多视角的MS-COCO和Google Open Images数据集上应用完整IoU损失函数和马赛克数据增强技术以丰富训练阶段,最终开发出一种高效且准确的人类检测器,适用于各种环境中的任何类型闭路电视(CCTV)监控摄像头。

我们使用OTC数据集对所提出的方法进行了评估,该数据集包含7530帧图像,涉及约15万人的检测和距离估计。该系统能够在多种挑战条件下运行,包括遮挡、光照变化、阴影和部分可见性,并在准确性(99.8%)和速度(24.1帧/秒)方面相比三种最先进的技术取得了重大进展。该系统能够在基本的GPU平台或第十代多核CPU平台实时运行,或者更高配置的设备上运行。我们为该应用适配了逆透视几何映射和SORT跟踪算法,以估计人与人之间的距离,跟踪人群的运动轨迹,并进行感染风险评估与分析,从而为卫生局和政府提供支持。

DeepSOCIAL提供了一种与视角无关的人类分类算法,因此无论摄像头的角度和位置如何,该研究结果都可以直接应用于更广泛的科研群体,不仅适用于计算机视觉、人工智能和健康领域,还适用于其他工业应用,包括驾驶辅助系统中的行人检测、自动驾驶车辆、公共场所和人群中的异常行为检测、体育动作识别、购物中心、公共场所等,以及任何以人类检测为核心的领域。

补充材料:我们在GitHub上公开了DeepSOCIAL模型相关资料,以促进该领域的研究可重复性。

作者贡献:在本研究中,作者Mahdi Rezaei(M.R.)和Mohsen Azarmi(M.A.)的贡献如下:概念化(M.R.和M.A.)、方法论(M.R.和M.A.)、软件(M.R.和M.A.)、验证(M.R.和M.A.)、形式分析(M.R.和M.A.)、调查研究(M.R.和M.A.)、资源(M.A.)、数据整理(M.A.)、撰写初稿(M.R.和M.A.)、审稿和编辑(M.R.)、可视化(M.R.和M.A.)、监督(M.R.)、项目管理(M.R.)。所有作者均已阅读并同意发表该论文的最终版本。

资金支持:本研究由英国利兹大学提供的UAF资助计划支持。

利益冲突:作者声明无利益冲突。

参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值