基于卷积神经网络的图像路面类型自动识别

最新推荐文章于 2024-09-12 01:00:00 发布

小白学视觉

最新推荐文章于 2024-09-12 01:00:00 发布

阅读量1k

点赞数

文章标签： cnn 人工智能神经网络深度学习机器学习

原文链接：https://mp.weixin.qq.com/s?__biz=MzU0NjgzMDIxMQ==&mid=2247607100&idx=2&sn=b5e363e750d5c5f46e41c6b4a123a1a5&chksm=fb54c1d0cc2348c6d9d252e44aee4c9e95befb980542ce042bc4a27bfb7f1d6eed4a9f0d97f3&scene=126&sessionid=0

版权

点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达

转自：自动化建造

基于卷积神经网络的图像路面类型自动识别

Automatic Pavement Type Recognition for Image-Based Pavement Condition Survey Using Convolutional Neural Network

作者：

Guangwei Yang, Ph.D. （Postdoctoral Researcher, School of Civil and Environmental Engineering, Oklahoma State Univ., Stillwater, OK 74078. ORCID: https://orcid .org/0000-0002-0870-2440）

Kelvin C. P. Wang, Ph.D., M.ASCE （2 Regents Professor, School of Civil and Environmental Engineering, Oklahoma State Univ., Stillwater, OK 74078 (corresponding author). Email: kcpwang@gmail.com）

Joshua Qiang Li, Ph.D., M.ASCE （Associate Professor, School of Civil and Environmental Engineering, Oklahoma State Univ., Stillwater, OK 74078.）

Yue Fei, Ph.D. （Algorithm Engineer, Chengdu Guimu Robot, 888 Chenglong Rd., Chengdu, Sichuan 610000, China.）

Yang Liu, Ph.D. （Postdoctoral Researcher, School of Civil and Environmental Engineering, Oklahoma State Univ., Stillwater, OK 74078.）

Kamyar C. Mahboub, Ph.D., M.ASCE （Professor, Dept. of Civil Engineering, Univ. of Kentucky, Lexington, KY 40503. ORCID: https://orcid.org/0000-0003-1668-4585）

Allen A. Zhang, Ph.D. （Senior Researcher, Guangdong Provincial Academy of Building Research, 121 E. Xianlie Rd., Guangzhou 510500, China. ORCID: https:// orcid.org/0000-0002-2565-9894）

期刊：Journal of Computing in Civil Engineering

原文连接：10.1061/(ASCE)CP.1943-5487.0000944.

文章提出的工程问题是什么？

有什么实际工程价值？

在交通负荷和气候的影响下，路面系统会随着时间的推移而恶化，每年需要花费大量资金来修复和保持其性能在预期水平。可靠和准确的路面状况数据在路面管理系统(PMS)中发挥着关键作用，人工调查可能存在潜在的安全问题，需要交通控制，耗时且结果受主观影响，这可能导致每年的路面状况数据不一致。

因此，基于数字成像的调查技术以高速公路的速度捕获路面图像，并将其存储在电子介质上，用于进行路面状况的解释的方法被大量研究。自动化和半自动化技术由于其在安全性和效率、数据一致性和可重复性以及全车道覆盖的高分辨率路面图像等方面的优势，在路面条件数据收集领域获得了广泛的接受。

文章提出的科学问题是什么？

有什么新的学术贡献？

基于图像的系统正在成为为路面管理活动收集路面状况数据的流行系统，路面工程师会根据路面类型定义各种遇险类别。然而，现在的软件解决方案在自动从收集到的图像中正确识别路面类型方面存在局限性。

本文提出了一种基于卷积神经网络(CNN)的路面识别系统PvmtTPNet，具有可接受的一致性、准确性并且高效自动识别路面类型。

1. 通过使用统计学习方法分析近场的声音轮廓和纹理，确定了不同类型的路面。

2. 利用最先进的PaveVison3D系统(Wangetal.2015)在俄克拉何马州不同条件下不同路面类型的路线上以1毫米分辨率的路面图像。共随机选取80%的准备图像用于对所提网络的训练，其余20%的图像用于测试。

3. 将获得的网络应用于确定2019年另外两个数据收集的图像的路面类型，以评估性能。

文章提出的技术路线是什么？

有什么改进创新之处？

①训练数据

本研究考虑了PMS中通常评定和测量的三种路面类型：沥青混凝土路面(AC)、接缝素混凝土路面(JPCP)和连续钢筋混凝土路面(CRCP)。总共收集了21,000张二维(2D)图像，覆盖了84,000米（52.20英里）的长路面切片。随机选取80%的准备图像用于对所提网络的训练，其余20%的图像用于测试。在训练过程中，将制备的二维图像缩小到475×512 二维图像，以提高计算效率。图1是预先准备的数据集的图像样例。

图1 准备的数据集的图像样例：(a)新；(b)有裂缝；(c)有密封裂缝；(d)有修补；(e)有裂缝；(f)有PCC修补；(g)有出口；(h)有交流修补；(i)有DBR；(j)有DBR和修补；(k)有裂缝；(l)有凹槽。

② 网络开发

图2显示了PvmtTPNet的体系结构。PvmtTPNet由六层组成：三个卷积层、两个全连接层和一个输出层。PvmtTPNet的输入端是准备好的二维路面图像，输出层计算出预测的路面类型的概率分布。在每个卷积层中，使用8个大小为13×13的核来提取输入图像的特征，如边缘和形状。对于这两个完全连接的图层，我们分别实现了32个节点和16个节点，以保存最重要的路面图像的特征。

图2 利用GA对HNN进行优化的流程图

③训练技巧

在网络训练过程中，采用了不同技术的组合，根据准备好的二维图像来调整PvmtTPNet内的超参数。对网络的参数进行逐步调整，以减少输出分数与期望分数模式之间的误差，以减少训练损失，提高训练精度(LeCunetal.2015)。经过广泛的训练，PvmtTPNet能够根据一个得分向量来预测给定的二维图像的路面类型，其中所有类别的最高得分将对应于路面类型。表1总结了PvmtTPNet的调优超参数，总数为992,979个。表1是训练参数的总结。

表1 训练参数总结

④ 训练结果

网络训练和测试的分类精度和交叉熵损失如图3所示。随着训练周期数的增加，分类精度增加，交叉熵损失减小。PvmtTPNet在100个时代的准备数据集上的训练需要28小时才能在NVIDIAtitanVGPU卡上完成。通过对训练技术的选择组合，测试数据的分类精度仍然接近于训练数据的分类精度，这表明该网络中很少存在过拟合问题。特别是，PvmtTPNet的最高测试精度为98.48%，这是在第96时代观察到的。同时，训练数据和测试数据的交叉熵损失分别为0.0067和0.054。因此，在第96阶段导出的参数被认为是PvmtTPNet的最优参数。训练数据在最优时期的分类精度达到99.83%。

图3 分类精度和交叉熵损失的总结

基于上述内容，本文有以下创新点：

1.本研究开发了一种基于深度学习(DL)的网络，称为PvmtTPNet，可以从图像中自动识别路面类型，以促进全自动的路面状况调查。PvmtTPNet实现了一个基于卷积神经网络的体系结构来学习来自路面类别的图像的特征。

2.采用校流线性单元(ReLUs)作为卷积层和全连通层的激活函数，可以进行快速有效的训练，已成为现代深度学习神经网络的默认激活函数。

文章是如何验证和解决问题的？

为了评估获得的PvmtTPNet在路面类型识别最佳时期的性能，2019年通过PaveVision3D系统对1号站点（靠近俄克拉荷马城）和2号站点(靠近阿肯色州史密斯堡的I-540)进行了另外两次现场数据收集。两种数据采集的路径如图4所示。

图4 模型评估的数据收集：

(a)Site1-I-35；(b)Site2-I-540

表2总结了PvmtTPNet对这两个数据收集的实际和预测路面类型的详细数量，并提供了每个站点的混淆矩阵。

表2 网络评价中的混淆矩阵

在每个混淆矩阵中，沿对角线上的数字代表正确的预测，而其他数字表示对每个路面类别的准确预测。如表2所示，PvmtTPNet从准备的Site1的6311张图像中获得了5760个正确的预测，准确率为91.27%。对于Site2，PvmtTPNet做出了3,439个正确的预测，并达到了96.66%的准确率。此外，PvmtTPNet使用一个NVIDIAtitanVGPU卡对站点1和站点2的图像进行预测需要16.33min和4.59min。因此，每幅图像的平均处理时间为站点1的平均处理时间为155,212μs，站点2为77,452μs。如果野外数据采集速度为96.56km/h(60mi/h)，则需要18.55min和10.46min才能完成对这两个地点的调查。因此，处理时间小于数据采集时间（站点1为16.33<18.55，站点2为4.59<10.46）。PvmtTPNet显然有潜力使用最新的GPU从实时收集的2D图像中预测路面类型，这将比研究中使用的GPU快几倍。

文章有什么可取和不足之处？

逻辑结构：本文的outline呈现在下文：

1. Introduction

说明了通过人工获得路面状况数据存在缺陷，因此，基于卷积神经网络的图像路面类型自动识别研究具有必要性。

2. Data preparation

介绍了本研究中使用的所有路面图像来源，以及本文对PvmtTPNet进行训练的对象。

3. Network Development

本研究开发了一种基于深度学习(DL)的网络，称为PvmtTPNet，可以从图像中自动识别路面类型，以促进全自动的路面状况调查。PvmtTPNet实现了一个基于卷积神经网络的体系结构来学习来自路面类别的图像的特征。

3.1 Methodology

介绍本研究采用CNN体系结构训练所提出的PvmtTPNet的方法论。

3.2 Network Architecture

介绍PvmtTPNet的网络体系结构。

3.3 Training Techniques

介绍PvmtTPNet网络训练的数据来源及训练方法。

3.4 Training Results

展示网络训练和测试的分类精度和交叉熵损失。通过对训练技术的选择组合，测试数据的分类精度仍然接近于训练数据的分类精度，表明该网络中很少存在过拟合问题。

4. Network Evaluation

通过PaveVision3D系统对俄克拉荷马城及靠近阿肯色州史密斯堡的I-540两地进行数据采集，并且通过PvmtTPNet在路面类型识别的结果评估其在路面类型识别最佳时期的性能。

5. Discussion

目前，在数据收集过程中在桥上添加事件标记是从收集的图像数据中排除桥段的常用方法。然而，这是对现场工作人员的估计，考虑到数据收集的高速速度，这可能会产生不准确的记录。因此，在下一阶段的工作中根据获得的图像判断PvmtTPTet在桥面图像的训练效果。但是存在以下几个方面的局限性：首先，从桥面上收集到的图像还不够多。众所周知，DL训练需要大量的训练数据来达到所需的性能。其次，桥面的二维图像并不总是包含该网络学习的区别特征。

6. Conclusions

在这项研究中，一个基于卷积神经网络的DL网络，名为PvmtTPNet，通过训练来识别人类的路面类型。2018年，利用PaveVision3D系统对俄克拉何马州三种路面类型的沥青混凝土路面、连接普通混凝土路面和不同条件和压力的连续钢筋混凝土路面进行了调查，编制了培训数据库。最后，总共制作了21000张2D路面图像，而三种路面类型都有大约7000张图像。每个2D图像覆盖了一个约4米宽和4米长的路面部分。通过所选择的训练技术，成功地训练了网络，没有过拟合问题。在最优时期，网络对路面类型识别的训练和测试图像的预测精度分别达到99.85%和98.37%。

应该注意的是，桥面的图像没有包括作为PvmtTPNet的一种路面类型。因此，未来的研究希望使用更多的数据集和可能更新的DL方法来识别桥梁。最后，还需要改进PvmtTPNet，以对刚性路面上的图像产生更准确的预测。最终目标是达到接近100%的精度，以自动和高速识别沥青和混凝土路面类型，以及其他表面类型，如桥面和复合材料。

从上述内容可以看出，本文主要采用纵式结构，以研究展开的顺序先后介绍了数据处理，神经网络开发，网络训练结果评估以及关于卷积神经网络图像路面类型自动识别的进一步发展。

研究方法：本文在研究的过程中，评估卷积神经网络PvmtTPNet在收集的路面类型时的性能的方法非常详细，并从多个角度验证PvmtTPNet在预测这两种数据时的收集效果。

图5 PvmtTPNet在预测数据准确性评估公式

图表形式：本文的图表形式简洁明了，没有使用复杂的图形表格，但是却直观展现了实验结果。

分类精度和交叉熵损失的总结

网络评估的混淆矩阵

文字表达：

表2总结了PvmtTPNet对这两个数据收集的实际和预测路面类型的详细数量，并为每个站点提供了混淆矩阵。

在图像精度评价中，混淆矩阵主要用于比较分类结果和实际测得值，可以把分类结果的精度显示在一个混淆矩阵里面。混淆矩阵是通过将每个实测像元的位置和分类与分类图像中的相应位置和分类像比较计算的。混淆矩阵的每一列代表了实际测得信息，每一列中的数值等于实际测得像元在分类图象中对应于相应类别的数量；混淆矩阵的每一行代表了遥感数据的分类信息，每一行中的数值等于遥感分类像元在实测像元相应类别中的数量。

图6 作者在文中使用混淆矩阵的前后文

文章对自身的研究有什么启发？

本文主要研究通过卷积神经网络对路面图像类型自动识别。在使用充分的样本验证PvmtTPNet后，延伸探讨了桥面的图像没有包括作为PvmtTPNet的一种路面类型，希望使用更多的数据集和可能更新的DL方法来识别桥梁。并且对PvmtTPNet进行改进，以对刚性路面上的图像产生更准确的预测。延伸出在自动和高速识别沥青和混凝土路面类型及复合材料方面的应用。

我们做科研也应该举一反三，将自己的研究结果进行延伸，不要仅仅局限在当下的专业框架下，而是要去积极探索更多的可能性。

本文仅做学术分享，如有侵权，请联系删文。

下载1：OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。


下载2：Python视觉实战项目52讲
在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。


下载3：OpenCV实战项目20讲
在「小白学视觉」公众号后台回复：OpenCV实战项目20讲，即可下载含有20个基于OpenCV实现20个实战项目，实现OpenCV学习进阶。


交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~