cv算法工程师校招八股

图像阿克曼

已于 2023-12-26 17:13:43 修改

阅读量1.9k

点赞数 34

文章标签：深度学习人工智能

于 2023-12-26 17:11:58 首次发布

本文链接：https://blog.csdn.net/m0_58846303/article/details/135226648

版权

本文详细讨论了卷积神经网络中的池化层作用、残差网络如何解决深度问题、损失函数的作用、yolov5中的数据增强和超参数设置，以及常见激活函数和backbone。还介绍了小目标处理的策略，如特征提取和锚框调整。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

此博客日常更新，记录一些校招八股，快点赞关注。

卷积神经网络CNN中池化层有什么作用？

减小图像尺寸即数据降维，缓解过拟合

残差网络为什么能做到很深层？

为了解决模型层数增加时出现梯度消失或梯度爆炸的问题而出现的。传统的神经网络中，尤其是图像处理方面，往往使用非常多的卷积层、池化层等，每一层都是从前一层提取特征，所以随着层数增加一般会出现退化等问题。残差网络采取跳跃连接的方法避免了深层神经网络带来的一系列问题。

神经网络在反向传播过程中要不断地传播梯度，而当网络层数加深时，梯度在逐层传播过程中会逐渐衰减，导致无法对前面网络层的权重进行有效的调整。残差网络中，加入了short connections 为梯度带来了一个直接向前面层的传播通道，缓解了梯度的减小问题。

什么是损失函数？

简单的理解就是每一个样本经过模型后会得到一个预测值，然后得到的预测值和真实值的差值就成为损失（当然损失值越小证明模型越是成功），我们知道有许多不同种类的损失函数，这些函数本质上就是计算预测值和真实值的差距的一类型函数，然后经过库（如pytorch，tensorflow等）的封装形成了有具体名字的函数。

在机器学习中，我们知道输入的feature（或称为x）需要通过模型（model）预测出y，此过程称为向前传播（forward pass），而要将预测与真实值的差值减小需要更新模型中的参数，这个过程称为向后传播（backward pass），其中我们损失函数（lossfunction）就基于这两种传播之间，起到一种有点像承上启下的作用，承上指：接収模型的预测值，启下指：计算预测值和真实值的差值，为下面反向传播提供输入数据。

在yolov5中的置信度损失和分类损失用的是二元交叉熵来做的，而定位损失是用的CIOU Loss来做的

yolov5介绍

先说数据增强Mosaic数据增强

利用四张图片，并且按照随机缩放、随机裁剪和随机排布的方式对四张图片进行拼接，每一张图片都有其对应的框，将四张图片拼接之后就获得一张新的图片，同时也获得这张图片对应的框，然后我们将这样一张新的图片传入到神经网络当中去学习，相当于一下子传入四张图片进行学习了。该方法极大地丰富了检测物体的背景，且在标准化BN计算的时候一下子计算四张图片的数据，所以本身对batch size不是很依赖。

focus要说

具体操作是在一张图片中每隔一个像素拿到一个值，类似于邻近下采样

骨干网路部分主要采用的是：Focus结构、CSP结构。其中 Focus 结构在YOLOv1-YOLOv4中没有引入，作者将 Focus 结构引入了YOLOv5，用于直接处理输入的图片。Focus重要的是切片操作，如下图所示，4x4x3的图像切片后变成2x2x12的特征图。