《Robust Lane Detection From Continuous Driving Scenes Using Deep Neural Networks》笔记

最新推荐文章于 2024-06-24 20:37:03 发布

l_BAT

最新推荐文章于 2024-06-24 20:37:03 发布

阅读量765

点赞数

分类专栏：读书笔记文章标签：深度学习人工智能自动驾驶视觉检测

本文链接：https://blog.csdn.net/is80x86/article/details/124648299

版权

读书笔记专栏收录该内容

6 篇文章

订阅专栏

作者:

Zou, Q (Zou, Qin) [1] ; Jiang, HW (Jiang, Hanwen) [2] ; Dai, QY (Dai, Qiyu) [3] ; Yue, YH (Yue, Yuanhao) [1] ; Chen, L (Chen, Long) [4] ; Wang, Q (Wang, Qian) [1]

DOI

10.1109/TVT.2019.2949603

@article{zou2019tvt,
  title={Robust lane detection from continuous driving scenes using deep neural networks},
  author={Q. Zou and H. Jiang and Q. Dai and Y. Yue and L. Chen and Q. Wang},
  journal={IEEE Transactions on Vehicular Technology},
  volume={69},
  number={1},
  pages={41--54},
  year={2020},
}

3. 本文提出的方法

结合DCNN和DRNN，用于车道检测任务。

3.1 系统总览

实际驾驶场景中，车载摄像头捕捉到的画面是连续的，连续帧之间的车道标志往往重叠，使得车道检测是基于时间的预测任务。RNN适用于连续信号处理、特征提取和整合。CNN适用于处理大型图像。通过连续卷积和池化，输入图像可抽取得到（多个）较小尺寸的特征图。连续帧的特征图包含了时间属性，可以用RNN结构得到较好处理。

为了整合CNN和RNN作为端到端网络，本文使用了编码器-解码器架构，如下图。

编码器CNN以一系列连续帧作为输入，处理每一帧图像获得以时间为序列的特征图；随后传入LSTM网络进行车道信息预测；LSTM的结果再输入到解码器CNN，得到车道预测的概率图。车道概率图的尺寸与输入图像相同。

3.2 神经网络设计

1）LSTM网络：LSTM效果一般优于传统RNN模型，因其可以遗忘不重要的信息并保留本质特征。

本文采用了双层LSTM模型，一层用于连续特征提取，另一层用于整合。

传统全连接LSTM费时且需要大量计算，本文神经网络采用了ConvLSTM[X. Shi, Z. Chen, H. Wang, D.-Y. Yeung, W.-K. Wong, and W. chun Woo, “Convolutional LSTM network: A machine learning approach for precipitation nowcasting,” in Proc. Adv. Neural Inf. Process. Syst., 2015, pp. 802–810.]

本文网络中，ConvLSTM的输入输出尺寸与编码器生成的特征图相同。对于Unet-ConvLSTM是8×16，SegNet-ConvLSTM是4×8. 卷积核大小是3×3. ConvLSTM有2个隐藏层，每层有512个维度。

2）编码器-解码器网络：编码器-解码器架构将车道检测任务抽象为语义分析任务。受SegNet[V. Badrinarayanan, A. Kendall, and R. Cipolla, “Segnet: A deep convolutional encoder-decoder architecture for image segmentation,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 39, no. 12, pp. 2481–2495, Dec. 2017.]和U-Net[O. Ronneberger, P. Fischer, and T. Brox, “U-net: Convolutional networks for biomedical image segmentation,” in Proc. Int. Conf. Med. Image Comput. Comput. Assisted Intervention, 2015, pp. 234–241.]架构启发，本文将ConvLSTM模块嵌入到编码器解码器之间。编码器-解码器为全卷积网络，因此，架构设计的核心问题是卷积层数、卷积核大小及数量。SegNet的编码器用了VGGNet的16层卷积-池化结构。本文的编码器参考了SegNet和U-Net并精简了卷积核数量和卷积-池化层数，以取得准确度和效率之间的平衡。编码器结构如下图。

对编码器、解码器CNN，文章总体采用Convolution-BatchNorm-ReLU作为卷积操作过程，所有卷积采用相同padding策略。

3.3 训练策略

考虑以下四个方面：

1）初始权重采用了SegNet和U-Net在ImageNet数据集上的预训练权重。

2） N帧连续的驾驶场景作为输入以判定车道，因此，反向传播中，ConvLSTM的每次权重更新都要除以5. 本文实验以N=5作为基准，并研究了N对模型表现的影响。

3）使用带权重的交叉熵作为误差函数。

4）为更高效地训练模型，文章在不同训练阶段采用了不同的优化器。初期采用了Adam优化器。当网络达到一定准确度后，使用SGD优化器，更小的学习率以找到全局最优解。

当训练精度达到90%时改变优化器。

4. 实验及结果

4.1 数据集

文章构架了基于TuSimple和自制的数据集。TuSimple数据集包含了3626个视频，每个视频长度1秒，含20帧，，第20帧标记有车道实际位置。为增加数据集，文章另外标记了每个视频的第13帧。作者另外增加了1148个乡村道路视频到数据集中。

训练过程中，作者选取了5个视频（最后一帧含车道真实位置），并在最后一帧预测车道，基于第13帧和20帧的图像，可以建立起训练集。同时，为了增强网络在不同车速下车道加测的普适性，作者以3种不同的步长（即间隔1帧、2帧、3帧）取样视频图像，如下表。

数据集增强，采用了旋转、翻转、裁剪等方式，生成19096个视频，包含了38192张带标签图像。输入图像会随机改变亮度，使数据集更加多样。

对于测试过程，作者同样选取5个视频，最后一帧预测车道，并与真实位置对比。作者构建了2套测试集，测试集1基于TuSimple，用于正常测试，测试集2由各种情景下更加困难的样本构成，用于评估鲁棒性。

由于车道线的多样性，如虚线、单实线、双实线等，标注真实车道线位置时需要统一标准，文章使用单实线标注车道线。然而，对于语义分析任务，模型从像素级别识别目标边界，使用线条标记似乎不够合适。图像中的车道线在近景会比远景更宽，所以作者降低了输入图像的分辨率。考虑到车道检测的目的是避免车辆偏离车道，没有必要准确识别出车道图形的边界。在实验中，作者降低了场景图像的分辨率，这样图像中的车道线将会变得较细，接近1像素。下图展示了一个实例。另外，使用低分辨率的图像可以使模型免受复杂背景材质的影响。