- 博客(300)
- 资源 (15)
- 收藏
- 关注
原创 目标匹配系列一之superpoint
采用类 VGG 的卷积主干(5 层卷积,无池化,步长 1,padding 保持特征图尺寸为输入的 1/8),输出 128 维特征图(H/8×W/8×128),为双分支提供共享特征。:将编码器输出扩展为 65 通道(8×8 像素块内 64 个位置的角点概率 + 1 个无角点概率),经 Softmax 得到概率图,再通过非极大值抑制(NMS)筛选出离散关键点坐标。(3)对第二步使用的图片进行几何变换得到新的图片,这样就有了已知位姿关系的图片对,把这两张图片输入SuperPoint网络,提取特征点和描述子。
2026-02-09 15:00:09
11
原创 SAM3自动标注(segment anything3)
与sam,sam2不同,sam3新增了对于text prompt的支持,也引入了“类别“的概念。 分割结果仍然很炸裂,感觉比许多抠图的模型都好。 在推理视频的视频也兼容了图片文件夹(
2026-02-06 15:39:41
10
原创 qwen2.5vl源码解析
在vit中比如划分patch是:756//14=54,1008/14=72,那每一个向量长度就是3*14*14=588长度,一共有54*72=3888个图像块,但是这里多了个时间维度2,所以向量长度就为3*2*14*14=1176。processor中处理text代码如下。
2026-02-03 20:37:28
25
原创 图像与点云融合技术综述:近年来相关论文整理
对齐策略:从硬投影到软关联,从显式对齐到隐式学习,注意力机制和Transformer架构的引入显著提升了对齐的灵活性和鲁棒性。融合方法:从早期融合、深度融合到统一BEV空间融合,融合策略不断优化,在保留各模态优势的同时实现高效的信息整合。应用效果:在KITTI、nuScenes、Waymo等主流数据集上,融合方法相比单模态方法取得了显著的性能提升,特别是在远距离和小目标检测等难点场景中。发展趋势。
2026-01-22 15:36:59
687
原创 mnn大模型推理之编译MNN
本文介绍了使用llm-export工具导出Qwen2.5-0.5B模型的过程。首先通过源码安装llm-export,下载模型并测试效果后,将其导出为ONNX和MNN格式(支持自定义量化参数)。然后尝试编译mnn-llm库运行模型失败后,转而编译MNN主库成功运行demo。文章详细记录了各步骤的命令行操作,包括模型导出、编译选项和运行结果,为相关开发者提供了实践参考。
2025-12-09 18:52:50
125
原创 第一课 安卓UI熟悉
这里的src/main/java/com.example.myui/MainActivity.kt是文件入口,然后在res下边建立一个xml界面文件,这个文件就是如何制作app的界面的,界面制作支持两种方式,一种就是通过在android里边直接点进去,这里会有很多的空间,通过拖拉拽,然后设置布局来设置界面,另外一种通过代码写布局,在AI没有出来之前肯定是第一种方便,但是现在直接通过大模型生成xml内容即可。之后就可以根据句柄去设置不同控件的回调函数,来做一些复杂的操作了。
2025-12-08 08:49:56
58
原创 ue和airsim目标定位原理
(1)⽆⼈机⻜⾏⾼度低于3000⽶,这样可以把地⾯近似为平⾯,⽽⾮球体模型(2)待检测⽬标处于地平⾯上,⽽⾮建筑物之上,否则⽆法准确定位(好像也可以)
2025-12-04 11:41:13
38
原创 Pix2seq全文解析
本文介绍了Pix2Seq目标检测框架,该框架将检测任务转换为语言建模问题。主要内容包括:(1)将检测标注转为token序列的方法,包括坐标离散化和特殊标记定义;(2)图像编码和解码过程,详细说明了掩码生成机制和Transformer解码器结构;(3)损失函数和预测头的实现方式;(4)对方法的评价,指出其简化了传统检测流程,但存在token生成效率问题。该方法创新性地使用语言模型思路解决检测任务,虽在推理效率上存在不足,但在大模型时代具有发展潜力。
2025-11-08 10:30:30
53
原创 vscode代码同步服务器
为什么会写这篇帖子,是因为往往本地没有运行环境,但是本地可以连接公司的git,要想做到既能快速保存写代码过程中的每一处小的修改,也能做到服务器运行代码,在本地写代码,服务器运行,本地和服务器自动同步是个好的解决方案。
2025-08-30 15:55:24
203
原创 windows笔记本连接RKNN3588网络配置解析
这里如果本机是windows电脑的话,直接将以下的文件放(https://pan.baidu.com/s/1HRuZ0BlKFP65PEp1-16qFw?这几天拿到了一块RKNN3588的板子,准备做视觉和Ros开发用,但是拿到后就蒙蔽了,不知道怎么ssh连到板子上去,更甚者不知道怎么配置网络让RKNN能够联网更新环境,这里记录一下整个过程。:RKNN板子插上电源以后,通过USB-typec接口一端连接板子,一端连接电脑即可。如果是ubuntu环境的话,就更简单了,直接执行以下命令即可。
2025-05-18 20:25:29
523
原创 ubuntu22.04编译PX4无人机仿真实践
如果某个python包安装失败,可以单独通过其他源来安装。编译完成即可显示:Ready for takeoff。克隆PX4源码,并且更新子模块。
2025-05-13 10:31:56
926
原创 LLaMA-Factory微调DeepSeek-R1-Distill-Qwen-7B
根据患者的详细病史和实验室检查结果,可以得出以下结论:\n\n1. **病因分析**:\n - **细菌感染**:尤其是Streptococcus pyogenes,可能导致关节炎,常见于儿童。\n\n4. **治疗转归**:\n - **切开引流后体温下降**和**急性症状消退**:说明感染得到了初步控制,可能细菌已被清除。从不同的角度来看,答案可能会有所不同:\n\n1. **从生物学角度来看**:鸡的形成需要经过漫长的进化过程,可能需要先有母鸡或其他条件,然后再有蛋的出现。
2025-05-07 15:01:34
547
原创 mmdet支持custom数据集格式读取和评测
在使用mmdet过程中,通常使用coco格式的数据格式,或者使用cocoapi进行精度的评测,不得不说一句太麻烦了,因为通常我们的det标注都是通过labelme或者其他标注软件来的,而且coco格式的标注把所有的数据放到一起不利于对单个文件管理。parse_data_info和filter_data两个方法。如果有不懂的欢迎提问~
2025-04-15 09:20:28
192
原创 python面试高频考点(深度学习大模型方向)
在Python中,上下文管理器(Context Manager) 是一种通过 with 语句管理资源的协议,确保资源(如文件、数据库连接、线程锁等)在使用后被正确释放,避免资源泄漏return self.file # 返回资源对象self.file.close() # 确保文件关闭# 使用示例3.python中的函数传参是传值还是传引用?变量是对象的标签:Python中变量本身不存储值,而是存储对对象的引用(即内存地址)。
2025-03-24 22:27:59
661
原创 mmdet数据读取过程解析
最近在将mmdet适配到自己的数据上,经过研究发现mmdet仅支持coco,voc等少数几类数据集,所以需要自己重新写一个dataset来解决,顺便熟悉一下mmdet的数据读取过程,这里以检测任务的yolov3为模型,voc数据集为例子来解析这个过程1.数据读取过程解析 这里在mmdetection/mmdet/datasets/cisdi.py新建了一个数据集CisdiDataset,其中内容参考voc数据集这里的JsonData
2025-02-12 15:41:22
148
原创 vscode调试常用选项
在vscode调试过程中,存在一个文件来控制调试的相关选项,位置为mmdetection/.vscode/launch.json。
2025-02-12 15:23:43
91
原创 目标检测之DINO详解
相比之下,我们的混合查询选择方法仅使用前K个选定特征来增强位置查询,并保持内容查询的可学习性不变。method for anchor initialization,a look forward twice scheme for box pre diction,在coco上使用resnet多尺度特征获得了(和DN-DETR相比)+6.0AP和+2.7AP的显著提升(12epoch和24epoch),DINO在取得更好结果的同时,显著减少了模型大小和预训练数据量。在DETR和DN-DETR 中,解码器。
2025-01-01 15:10:00
483
原创 基于ultralytics库的RTDETR独家大全(原创)
RTDETR作为目标检测和分割领域的新兴技术,具有巨大的发展潜力。通过本专栏的基础入门和高阶创新改进部分的学习,读者将能够全面了解RTDETR的基本原理、实现方法以及优化策略,为进一步的研究和应用打下坚实的基础。期待与大家一起在视觉大作战专栏中探索RTDETR的无限可能!
2024-12-31 22:34:44
1548
4
原创 ultralytics库RT-DETR代码解析
其中,主要包含了4个函数,_get_encoder_input函数将输入整理成需要的形状,get_cdn_group添加了类似于DN-DETR的去噪分组方法,_get_decoder_input,decoder进行注意力计算。下边详细来看看这4个函数具体过程。这里相信看过我文章的小伙伴已经非常熟悉了,通过[w,h]来生成对应的锚点,只不过这里有一点特殊,这里的锚点坐标是归一化后的,另外,针对锚点归一化后的值小于0.01或者大于0.99都是无效的,所以这里维护了一个valid_mask来得到有效的锚点。
2024-12-31 17:34:34
1611
1
原创 yoloseg分割模型精度提高技巧(干货)
可选的解决方案是可以提前进行目标区域裁剪来减少这种损失。众所周知,在实时实例分割领域,可用的方法并不多,2019年yoloact的问世给了给了众多算法工程师一个不错的选择,之后yolo系列的实例分割方法也一直按照yoloact的思路进行实例分割任务。在部署过程中,最耗时的操作就是protos【b,32,160,160】和weights【b,20,32】之间进行的矩阵相乘操作,这个提升的解决方案有很多,以下是一些可选方案。:如果可以接受精度损失的话,在训练过程中可以把32个protos减小到16个或者8个。
2024-12-28 11:44:17
399
原创 如何在yolov8中使用ATSS策略
在yolov8中使用的标签匹配策略是TAL,本篇文章解析一下ATSS代码相关实现以及如何把ATSS放到yolov8中使用。其次在loss.py中将assigner改为ATSS。
2024-12-27 20:27:22
336
原创 视觉大作战专栏感想
最后,就是伙伴招募了,从读书阶段到工作,一直没有志同道合的小伙伴可以并肩作战,希望在高质量文章创作上有几个小伙伴一起,主要的工作是在这个专栏里输出视觉的高质量文章,并经过我的审核发布。成功入伙的伙伴根据文章阅读量的比例可以获得等比的专栏分成,当然最主要的还是持续鼓舞自己不断学习,输出高质量文章~,比如pyqt,deepstream,rknn,android,ncnn,tensorrt等等的心得。(如yolo系列,实例分割、全景分割,目标跟踪,多模态等等)(如提速,量化,蒸馏,剪枝等等)
2024-12-25 20:44:15
176
原创 yolov8如何评价结果
为的意义是确定41个预测box在某个iou标准下是否是TP,所以维度是[41, 10] ,41表示有41个预测box,10表示10个iou标准,分别为[0.5000, 0.5500, 0.6000, 0.6500, 0.7000, 0.7500, 0.8000, 0.8500, 0.9000, 0.9500]bbox为gt中的box信息,维度为(1,3),cls为gt的类别信息,维度为(1)bbox为gt中的box信息,维度为(1,4),cls为gt的类别信息,维度为(1)
2024-12-25 19:27:36
1107
基于QT实现的植物大战僵尸游戏.7z
2019-11-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅