啊昃-CSDN博客

原创 YOLOv26_后处理

YOLOv26 采用 Anchor-Free 检测范式，摒弃了传统目标检测中预定义锚框（Anchor Box）的做法，直接预测目标边界框相对于特征图网格点的偏移量。这一设计显著简化了模型结构，减少了超参数数量，同时保持了优异的检测性能。符号含义说明x1y1(x_1, y_1)x1y1边界框左上角坐标原始图像坐标系x2y2(x_2, y_2)x2y2边界框右下角坐标原始图像坐标系cxcy(c_x, c_y)cxcy。

2026-02-11 11:26:04 632

原创 Yolov13量化为int8_onnx和tflite笔记和踩坑记录_加论文代码简读

摘要：本文分享了YOLOv13模型量化过程中的经验总结。首先介绍了YOLOv13的两大创新点：HyperACE机制和FullPAD范式，并分析了相关代码实现。重点记录了量化过程中遇到的算子报错问题及解决方案：1）针对DSC3K2模块中的slice算子报错，通过修改.chunk为.split解决；2）针对注意力模块中的slice报错，优化了forward函数实现。同时提供了完整的量化流程：从训练得到的.pt模型导出fp32 onnx，再转换为int8 tflite，最终转为int8 onnx。

2025-12-17 15:34:34 953

原创音频分类-----Efficient Pre-Trained CNNs for Audio Pattern Recognition （EfficientAT）复现及tensorflow架构下推理

本文介绍了作者在音频分类任务中的实践，重点关注环境声音分类的工程化实现。作者使用EfficientAT模型，通过知识蒸馏方法将Transformer模型的能力迁移到轻量级CNN上，并结合动态卷积技术提升性能。针对公司内部数据样本不均衡问题，采用自定义CBLoss损失函数进行优化。为实现TensorFlow架构下的部署，作者将PyTorch前处理代码复写成TensorFlow版本，并将训练好的模型转为ONNX格式。

2025-10-24 17:17:16 814

原创 MMsegmentation与MMdeploy简单使用

最近涉及到了图像分割的任务，于是拿来写下博客加深下使用。MMsegmentation与MMdeploy的环境配置暂不做讲解，在官网和其他博客中有很多说明。MMdeploy主要是把pt转为 onnx_int8的情况。

2024-08-28 17:19:32 1664

原创 Linux下Vision Mamba环境配置+多CUDA版本切换

Linux 下 Vision Mamba的环境配置。笔者在linux下选用CUDA11.8版本，也比较推荐读者使用此版本，方便后续环境配置。

2024-05-19 22:00:00 5634 8

原创 Vision Mamba论文阅读（主干网络）

简单看看，文章介绍了Vim模型，这是一种新的通用视觉基础模型，它利用双向Mamba块(bidirectional Mamba blocks (Vim))和位置嵌入 (position embeddings)来处理图像序列，并在ImageNet分类、COCO对象检测和ADE20K语义分割任务上取得了比现有的视觉Transformer模型（如DeiT）更好的性能。指出了Mamba时间复杂度与序列长度是线性的。而Transformer的时间复杂度是与序列长度乘二次方关系。

2024-05-18 22:00:00 9232 6

原创单目深度估计---Depth Anything论文详解

论文题目：Depth Anything: Unleashing the Power of Large-Scale—— 任何深度：释放大规模无标记数据的力量（注意论文名字，因为后续的很多工作都是在未标注数据上做的。作者认为Depth Anything是一种用于稳健单目深度估计的非常实用的解决方案。在不追求新颖的技术模块的情况下，作者目标建立一个简单而强大的基础模型（而且是Zero-shot）。为此，作者通过设计一个数据引擎来收集并自动标注大规模未标记数据（∼62M），从而扩大数据覆盖范围，来能够减少泛化误差。

2024-03-30 16:10:17 23775 31

原创 BEV感知---BevFormer详解

论文名字其中关键词是Spatiotemporal 时空的 , 分开即 spatia 空间的l ,temporal 时间的。可见本论文在BEV感知上引入了时间和空间的因素。相比之前的BEV算法来说，这是比较有创新的一点。具体的，下图所示，上面的分支进行空间特征（多视角图像特征）注意力（spatial cross-attention）。下面的分支进行时间特征注意力(temporal self-attention)，可以看到作者这里把前一时刻(t-1时刻）的BEV特征当作是时间特征。

2024-03-25 15:50:23 10636

原创 BEV感知---BevFusion详解

一种非常经典的多模态融合感知方案叫 BEVFusion。这是一种用于多任务多传感器 3D 感知的高效通用框架。BEVFusion 将相机和 LiDAR 功能统一在共享 BEV 空间中，完全保留几何和语义信息。相机和点云分支没有明显的主次关系，相互独立，结果上又相辅相成。高效、准确的多传感器感知对于自动驾驶汽车的安全至关重要。BEVFusion 将最先进的多传感器融合模型的计算成本降低了一半，并在小而远的物体以及雨天和夜间条件下实现了大幅精度提高。它为安全、稳健的自动驾驶铺平了道路。

2024-03-21 15:08:26 21910 10