查阅文献《基于卷积神经网络的驾驶员行为检测方法研究》

大龙大耳朵

已于 2023-09-01 10:12:23 修改

阅读量158

点赞数 1

分类专栏：驾驶员行为检测文献文章标签：笔记

于 2023-08-30 16:32:43 首次发布

本文链接：https://blog.csdn.net/qq_45352009/article/details/132575154

版权

驾驶员行为检测文献专栏收录该内容

1 篇文章 0 订阅

订阅专栏

学习目标：

查阅文献《基于卷积神经网络的驾驶员行为检测方法研究》

学习内容：

摘要

危险驾驶行为检测：

基于CBAM的yolov3的驾驶员行为检测方法（提升关键区域的特征表达，降低背景干扰）
1.1 针对问题：背景噪声干扰，检测精度低。
1.2 融合CBAM注意力的yolov3检测网络结构（图片-标注-旋转，光照等数据增强）
基于特征融合的yolov3手持通话行为检测方法
2.1 针对问题：手机目标检测尺寸小，分辨率低，特征不明显
2.2 k-means++聚类，多尺度融合的数据增强方法，加快算法收敛。
2.3 对yolo网络中的FPN结构改进，对特征融合后的特征图在相反方向下采样，重新融合特征，提升检测精度。
state farm 驾驶员数据集不标注问题
神经网络
1.1 神经网络最初被应用到图像和语音识别
1.2 神经网络要解决的基本问题是分类问题
1.3 1943年McCulloch和Pitts定义人工神经网络
1.4 Frank Rosenblatt 提出感知机
卷积神经网络
2.1 典型的深度学习架构，AlexNet架构、ResNet架构，VGGNet架构，GoogleNet架构

传统目标检测

候选区域定位，对象特征提取，特征分类器分类

候选区域定位 滑动窗口遍历图像，会产生很多不必要的冗余框。二进制规范梯度

对象特征提取 SIFT特征，用于人脸的Haar特征，行人检测的HOG特征，基于方向梯度直方图改进的DPM特征。
特征分类器分类 Adaboost分类和支持向量机svm，需要根据第二步特征提取层提取数据的特点来选择可以达到最好分类效果的分类器。

深度学习目标检测

one-stage 单阶段目标检测算法
2015年，yolo是基于回归的思想通过对输入图像以划分网格的方式直接进行检测，其缺点是对小目标检测不友好。
2016年，SSD是利用多个尺度的网络进行目标检测，对小目标检测效果有所加强。
two-stage 两阶段目标检测算法
R-CNN Fast R-CNN Faster R-CNN

基于特征融合的yolov3手持通话行为检测方法

目标越小，信息表征能力越弱。针对此问题，提出以下解决方法：数据增强，多尺度特征融合，融合训练策略等。
对于小目标来说，经过下采样会导致其信息丢失和损坏，通过不同尺度的特征结合可以提高特征的信息量，图像金字塔和特征金字塔就是用于小目标检测多尺度特征融合的算法。

图像金字塔

图像金字塔可以分为高斯金字塔和拉普拉斯金字塔
在这里插入图片描述

高斯金字塔是通过下采样所产生的，是不可逆的线性操作，会导致信息丢失，无法找回。
高斯滤波（卷积过程）就是对整幅图像进行加权平均的过程，每一个像素点的值，都由其本身和邻域内的其他像素值经过加权平均后得到。高斯滤波的具体操作是：用一个模板（或称卷积、掩模）扫描图像中的每一个像素，用模板确定的邻域内像素的加权平均灰度值去替代模板中心像素点的值。
在这里插入图片描述

拉普拉斯是在高斯金字塔的基础上进行了改进，在下采样的同时进行上采样，这样不断上采样，迭代得到与原图尺度一样的图像。

那么向下采样和向上采样是什么呢？？

下采样：通过删除偶数行和偶数列。
上采样：插值，如：最近邻插值，补零。
以上这两种操作都是不可逆的。

特征金字塔

特征金字塔网络（fpn Feature Pyramid Network）
论文地址：Feature Pyramid Networks for Object Detection
浅层特征图信息少，但是目标准确，但深层特征图其信息多，但目标就是粗略。
FPN的功能可以说是融合了浅层到深层的特征图，从而充分利用各个层次的特征。
在这里插入图片描述
图a：特征化图像金字塔是对原始图像进行缩放，获得不同尺寸的图像，然后基于每种尺寸的图像生成不同尺寸的特征图，最后基于多尺寸特征图进行预测。针对每种尺寸的图片生成特征图，会消耗较多的计算和内存资源，端到端训练几乎不可能实现，所以基本上就用在推理阶段且推理速度较慢。

图b：单一特征图使用最上层的特征图来进行预测。这种方法难以有效利用浅层特征，小尺寸目标的检测比较困难。

图c：特征图金字塔直接将这些特征图当作是金字塔状的特征层结构来使用，与第一种方式类似。仍然比较单一

图d：特征金字塔网络自顶向下地处理特征图并通过横向连接的方式融合底层的具有较少语义信息的特征图和高层的具有丰富语义信息的特征图，同时没有牺牲表达能力、速度和资源的消耗。
特征金字塔实现过程：

Bottom-up pathway：自底向上构建不同尺寸的特征图
Top-down pathway and lateral connections：自顶向下处理特征图和横向连接。

学习内容背景知识：

yolov3的主干特征提取网络为Darknet53。

注意力机制：注意力机制是指人类或机器在处理信息时，选择性地关注某些特定的信息，而忽略其他无关的信息的能力。它是大脑或计算机系统中的一种重要的信息处理机制。
在目标检测领域中，注意力机制的意义主要体现在以下几个方面：
（1）目标定位：目标检测任务中，注意力机制可以帮助模型集中关注目标物体的位置和特征，从而更准确地定位目标。通过注意力机制，模型可以选择性地关注目标物体周围的区域，提高目标定位的准确性和精度。
（2）特征提取：注意力机制可以帮助模型选择性地关注图像中与目标相关的特征，忽略无关的背景信息。这样可以提高特征的判别性，使得模型更容易区分目标和背景，从而提高目标检测的准确性和鲁棒性。
（3）多尺度检测：目标检测任务中，不同尺度的目标物体可能具有不同的特征表达。注意力机制可以帮助模型在不同尺度上选择性地关注目标物体的特征，从而实现多尺度的目标检测。通过注意力机制，模型可以在不同尺度上进行目标检测，提高对小目标或大目标的检测能力。
（4）目标分类：在目标检测任务中，注意力机制可以帮助模型关注目标物体的关键部分或特征，从而更好地进行目标分类。通过选择性地关注目标物体的重要特征，模型可以更准确地判断目标的类别，提高目标检测的分类准确性。
注意力模块是指在神经网络或机器学习模型中，专门设计用于实现注意力机制的一部分。它通常由一系列的计算单元或网络层组成，用于计算和调整不同位置或特征的注意力权重，以实现对输入信息的选择性关注和加权。
特征融合指的是在给定不同属性的特征时,利用特征之间的互补性,融合特征之间的优点,进而提高模型的性能。
FPN结构：目标检测的特征金字塔网络

学习时间：

2023.8.30
2023.9.1（补充）

大龙大耳朵

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
查阅文献《基于卷积神经网络的驾驶员行为检测方法研究》

基于CBAM的yolov3的驾驶员行为检测方法（提升关键区域的特征表达，降低背景干扰）1.1 针对问题：背景噪声干扰，检测精度低。1.2 融合CBAM注意力的yolov3检测网络结构（图片-标注-旋转，光照等数据增强）基于特征融合的yolov3手持通话行为检测方法2.1 针对问题：手机目标检测尺寸小，分辨率低，特征不明显2.2k-means++聚类，多尺度融合的数据增强方法，加快算法收敛。2.3 对yolo网络中的FPN结构。
复制链接

扫一扫