yolov4项目记录1-卷积+BN

目录

一、图像卷积

1.卷积

2.卷积参数

3.(1,1)卷积核

二、yolov4的卷积设计理念

三、Batch Normalize


一、图像卷积

1.卷积

左边的图是(7,7,1)的原图,中间的是3*3的kernel,从左上角开始,把和kernel同等大小的原图的像素,和kernel的元素,对应元素相乘,并把乘积结果相加,得到一个结果,这个过程就是卷积。

如果图片不是单通道而是三通道RGB,即(7, 7, 3),那么卷积核也是三通道,即(3,3,3)。即使卷积核是三通道了,最终卷积结果依旧是(5, 5, 1),因为每计算一次,三个通道的结果均是(5, 5, 1),这三个结果相加,还是(5, 5, 1)。

上面使用一个kernel计算一次,就生成了一张(5, 5, 1)的feature map,如果我们使用256个kernel,那么就拼接起来,生成(5, 5, 256)的feature map。

 

2.卷积参数

padding: 在原图的最外层补0,如果对(7, 7, 1)的外围增加一圈0,那么用3*3的卷积核卷积完以后,得到的是(7, 7, 1),也就是和原图大小一致了。

stride步长:如果stride=1,就是每卷积一次,就向右移动stride=1个位置,那么最终是从(7, 7, 1)生成(5, 5, 1)的feature map。

根据下面的计算,可以直接算出生成的特征图feature map的尺寸。

 

3.(1,1)卷积核

灵活降维和升维。比如原来是(28,28,256),那么使用(1,1,256)的卷积核,使用几个卷积核,就会输出几维,比如使用100个,就是(1,1,256,100),卷积后就得到了(28,28,100)。

好处1:减少参数量

在得到同样维度的结果的基础上,能极大地减少参数量。如下图所示。

 好处2:能代替全连层

下面的第一次卷积,是直接使用4096个(7,7,512)的卷积核,和原来的(7,7,512)进行全局卷积,得到(1,1,4096),再使用1000个(1,1,4096)进行卷积,就得到了(1,1,1000)的结果。全连接层的方式,和卷积的方式参数一样,因此全连接层就是一种全局的卷积。

二、yolov4的卷积设计理念

yolov4的输出需要包含的信息有:物体的位置信息、有物体的概率、物体的分类,可以写为:(tx, ty, tw, th, obj, cls),其中前四个是物体的位置信息,最后一个cls,根据分类的类别数,维度不同,如果只有1个类别,那就只占1个位置,如果是2个类别,就是2个位置,使用one-hot编码。

而在实际的yolov4的最终输出之前,也就是下面的黄色部分,是(19,19,1024),通过蓝色的18个(当只有1个分类类别的时候,如果有2个,那就是19个卷积核)1*1*1024的卷积核,得到(19,19,18),最后reshape成(3,19,19,tx, ty, tw, th, obj, cls)。

后面的是检测的物体信息,而前面的(3,19,19)的理解如下:

19*19个特征点,等同于把原图分成了19*19个网格,原图的输入是608*608的,那么每一个网格的大小就是608/19=32,每一个特征点只关注对应的网格,判断对应的网格是否有物体。

每个网格预先生成3个先验框,来满足不同尺寸的目标。先验框是根据数据的分布,人为指定的,比如使用k均值聚类的方法。而最前面的3,包含三个数字,分别代表的是:①哪个先验框更适合此物体(通过IOU得到),②物体x轴的位置,③物体y轴的位置

比如下面的物体是人,他在实际图中的网格位置是(4,3) ,而我们的先验框有3个,标号分别是0,1,2,并且0号框最适合这个人,因此对于(4,3)这个位置的网格的输出就是(0,4,3,tx, ty, tw, th, obj, cls),如果是训练好的模型,那么可能是(0,4,3,tx, ty, tw, th, 0.95, 0.98),如果是真实标签,那么这里的标签就是(0,4,3,tx, ty, tw, th, 1, 1),对于剩下的19*19-1个网格也是一样的。

这里面tx, ty, tw, th是相对于先验框的中心点的宽和高的变化量。训练的时候,对于其他的没有物体的位置的网格,物体相关信息全部赋值为0:(: ,: ,:, (0,0,0,0,0,0))

 

三、Batch Normalize

假设batch=4,也就是输入了4张图,每一张是(608,608,3),通过网络后,得到了(19,19,512)的feature map,总共有4个,也就是(4,19,19,512)。

首先取每张图的第一个通道的(19,19)那么多的数据,求平均,得到第一个通道上的所有4个平均值,再求和,再除以4求个平均。合起来就是:sum(4,19,19) / (19*19*4),这就是这个batch中,第一个通道的均值mu1。

再求剩下的511个通道的均值mu2...mu512,把这512个通道的均值拼接起来,得到一个长度为512的一维向量。这就是batch均值。

同理,按通道求得方差。

对每一个通道,都有2个参数gamma和beta,用于进行尺度变换和偏移,这两个参数是在反向传播中学到的,使得分布和真实的分布越来越像。

<think>好的,我需要帮用户了解如何生成类似YOLOv8的机器学习模型结构图。首先,我得回忆一下生成模型架构图的常用方法。用户提到了YOLOv8作为示例,所以可能需要具体到该模型的结构。 首先,用户可能想知道有哪些工具可以使用。常见的工具有TensorBoard、Netron、绘图工具如PPT或在线工具,以及代码生成工具如pytorch-summary。然后,我需要分步骤说明每种方法的具体操作,并确保符合用户的要求,比如正确使用LaTeX格式,生成相关问题等。 记得检查引用的内容是否相关。用户提供的引用中提到了YOLOv8的训练和预测代码,但没有直接提到结构图生成。但可能需要结合这些信息,比如在模型训练时使用YOLO()函数加载配置,这可能涉及模型结构的定义。例如,引用[4]中的代码使用了YOLO(‘my_coco.yaml’)来构建模型,这说明模型结构可能由YAML文件定义,而加载预训练权重。因此,生成结构图可能需要解析YAML配置文件,或者使用工具来可视化基于PyTorch的模型。 接下来,要确保每个步骤都详细说明,比如使用Netron打开模型文件,或者使用PyTorch的钩子函数记录各层结构。同时,需要提醒用户注意不同工具的优缺点,比如Netron的简便性,代码生成工具可能需要安装额外库。 然后,生成相关问题需要考虑用户可能遇到的后续问题,比如如何导出ONNX格式,如何自定义结构图,或者YOLOv8的结构特点。这些问题应该与生成架构图的方法相关,帮助用户进一步深入。 最后,确保回答结构清晰,分点列出方法,每个方法有具体步骤和示例代码(如果需要),并正确引用提供的资料。同时,检查LaTeX格式是否正确,例如变量和公式是否正确使用$...$,独立公式用$$...$$,但在这个问题中可能涉及较少的数学公式,更多是工具使用说明,所以可能不需要太多LaTeX,但如果有模型层数的例子,可能需要用行内公式。 现在需要把这些思考整理成符合用户要求的回答,确保每个部分都符合系统级指令,比如使用中文,正确引用,生成相关问题等。</think>### 生成机器学习模型架构图的方法(以YOLOv8为例) #### 1. **使用模型可视化工具** - **TensorBoard**:PyTorch或TensorFlow内置的可视化工具,可展示计算图和模型结构。 - 示例代码(PyTorch): ```python from torch.utils.tensorboard import SummaryWriter model = YOLO('yolov8s.yaml').load('yolov8s.pt') # 参考引用[4] writer = SummaryWriter() writer.add_graph(model, input_to_model=torch.rand(1, 3, 640, 640)) writer.close() ``` - 运行后执行 `tensorboard --logdir=runs`,通过浏览器查看图结构[^2][^4]。 - **Netron**:支持多种格式(如ONNX、PB、PT)的模型可视化工具。 - 导出YOLOv8为ONNX格式: ```python model.export(format="onnx") # 生成.onnx文件后用Netron打开 ``` #### 2. **代码生成架构图** - **使用`torchsummary`或`pytorch-summary`**: ```python from torchsummary import summary summary(model.cuda(), (3, 640, 640)) # 输出文本结构描述 ``` - **自定义绘图工具**: - 通过解析模型层信息,使用`matplotlib`或`graphviz`绘制: ```python import hiddenlayer as hl hl.build_graph(model, torch.zeros([1, 3, 640, 640])).save("yolov8_arch.png") ``` #### 3. **手动绘制工具** - **PPT/Visio/Excalidraw**:根据YOLOv8的官方文档或论文描述手动绘制。 - 参考YOLOv8结构特点:如CSP模块、SPPF层、多尺度检测头[^4]。 - **在线工具**(如Lucidchart、Draw.io):提供神经网络模板,可快速搭建。 #### 4. **结合YAML配置文件** - YOLOv8模型通过YAML文件定义结构(如`yolov8s.yaml`),可直接解析该文件生成层级图: ```yaml backbone: - [-1, 1, Conv, [64, 3, 2]] # 输入通道3,输出64卷积核3x3,步长2 - [-1, 1, Conv, [128, 3, 2]] # ... 其他层定义(参考引用[4]) ``` #### 5. **关键注意事项** - **模型轻量化**:YOLOv8的"n/s/m/l/x"不同尺寸对应不同层数和通道数,需标注差异[^4]。 - **输入分辨率**:默认$640 \times 640$,影响特征图尺寸计算。 - **模块缩写**:如`C2f`(跨阶段部分融合模块)、`ConvBNSiLU`(卷积+BN+激活函数组合)需明确标注。 ---
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值