- 博客(426)
- 收藏
- 关注
原创 yolov7详解
引进了更为高效的特征提取模块(ELAN)、下采样模块(MP),不同的空间池化层(SPPCSPC),重参数卷积(RepConv)参考:https://zhuanlan.zhihu.com/p/590986066。:结合YOLOv5中和正样本匹配方法和YOLOX中的正样本筛选方法(SimOTA)2.4 SPPCSPC模块。2.2 ELAN模块。2.5.2 模块实现。
2024-08-28 16:00:55
633
原创 分布式训练ddp和slurm
对于一般的用户来说,ddp多机多卡训练方式已经基本上够用了。然而对于需要进行更大规模训练的人来说,在每个节点上依次运行命令比较繁琐并且容易出错。Slurm 主要的作用在于任务调度,其可以为用户分配计算机节点来执行任务,并且支持任务队列,可以比较高效地分配资源。使用slurm:https://blog.csdn.net/LittleNyima/article/details/136813418。使用ddp:https://blog.51cto.com/u_16213675/9632480。
2024-08-23 16:30:45
543
原创 图片标签可视化Supervision 计算机视觉工具库
参考:https://blog.csdn.net/weixin_46105038/article/details/140722342。
2024-08-16 17:38:41
229
原创 transform与位置编码
因为是一次性接收所有token作为输入进行并行处理,“遗忘”的问题没有了、所有的token都一视同仁了、上下文的信息能同时获取到、时间复杂度也降下来了。但是这又出现了新的问题,因为所有token一视同仁了,模型就没有办法知道每个token在句子中的相对和绝对的位置信息,而位置关系对于NLP任务来说是有着决定性影响的。在Transformer出现以前,NLP任务大多是以RNN、LSTM为代表的循环处理方式,即一个token一个token的输入到模型当中。2.句子越靠后的token对结果的影响越大;
2024-08-09 18:35:09
288
原创 GLIP学习
GLIPv2参考:https://blog.csdn.net/jiaoyangwm/article/details/130623815。GLIP参考:https://zhuanlan.zhihu.com/p/638842771。
2024-08-09 16:28:32
308
原创 detr学习
detr和deformable-der的非常好的一篇讲解:https://zhuanlan.zhihu.com/p/700776674。
2024-08-09 11:44:03
316
原创 机器视觉相关名词定义
在目标检测中,FPS是衡量模型实时性能的关键指标。GFLOPS衡量的是模型每秒能执行的浮点运算次数,单位是十亿(Giga)次浮点运算。在目标检测模型中,一个模型的GFLOPS越高,表示该模型在硬件上执行运算的能力越强。GFLOPS是衡量算法计算复杂度的指标,通常与模型的参数量和运算量相关。在目标检测模型中,参数量通常指的是模型中可学习参数的总数。参数量是衡量模型复杂度的一个重要指标,它直接影响到模型的存储需求、计算成本以及训练时间。参数量的多少也与模型的容量有关,即模型能够学习的特征信息量。
2024-08-09 10:56:50
373
原创 辅助头训练
主体头是giou和分类loss,辅助头可以是软标签,让他的结果与一个大模型结构接近。这样反向传播时影响了主干的参数,最后推理的时候只需要主体头,不会相互影响。1.辅助头训练是一种常用的方法,训练时辅助训练,推理时可以去掉。辅助头的设计loss与主体头的优化目标不一致。辅助头一般有几种:atss等。
2024-08-08 18:07:26
185
原创 swin和vit
在Swin Transformer的特征图中,它是用一个个窗口的形式将特征图分割开的。窗口与窗口之间是没有重叠的。Swin-Transformer所构建的特征图是具有层次性的,很像我们之前将的卷积神经网络那样,随着特征提取层的不断加深,特征图的尺寸是越来越小的(4x、8x、16x下采样)。在ViT模型中,是直接对特征图下采样16倍,在后面的结构中也一致保持这样的下采样规律不变(只有16x下采样,不Swin Transformer那样有多种下采样尺度 -> 这样就导致ViT不能构建出具有层次性的特征图)
2024-08-06 16:40:33
707
原创 Co-Detr
参考:https://www.bilibili.com/video/BV1Sh4y1F7ur/?2.将以上辅助头的输出传到decoder中,作为query。1.在encoder之后加入RPN,atss辅助头。主要修改两个地方:encoder和decoder。加入更多的头,产生更多的loss,更好优化模型。之前的detr正样本数量少,匹配不平衡。
2024-08-04 20:29:23
214
原创 detr论文解读
参考:https://www.bilibili.com/video/BV1md4y1s7nW/?output pos.enc.:输出位置编码。learned at input:只给decoder第一个层位置编码,learned at attention:decoder的每层都给位置编码。loss设计了两种方式,第一种只取decoder最后一层算loss,第二种取decoder每一层算loss。spatial pos.enc.:空间位置编码。q=k=backbone输出的图像特征+位置编码。
2024-08-04 13:29:19
258
原创 Co-Detr解读
总而言之,Co-DETR通过添加辅助头来提高网络的训练精度,仅仅是一种新型的训练方案,并未提出新的网络。为了提高解码器中正样本(positive samples)的训练效率,Co-DETR从辅助头中提取正坐标(positive coordinates)来进行额外定制的正查询(positive queries)。Co-DETR发现DETR及其变体网络是一对一标签分配,指出了其中的问题,随之提出一对多标签分配监督多个并行辅助头的方法。辅助头只在训练过程中使用,推断过程中被丢弃,只使用源网络进行推断。
2024-08-02 18:54:00
369
原创 Swin Transformer和vit
Swin Transformer最为关键的设计在于连续自注意力层间,特征图上的窗划分口实现了半个窗宽的移动。这使得前一层的窗口间可以实现交互和联系,大幅度提升了模型的表达能力。同时在同一窗口内的查询都拥有相同的key序列,使得硬件内存更容易实现大大提升了模型运行的速度,降低延时。
2024-08-01 17:16:17
260
原创 transform详解
transform的attention也是需要用权重代表重要程度,输入*权重=输出,再用输出和label计算loss,transform的权重是通过自注意力机制(Q,K,V)计算得到的。transformer:输入,位置编码,编码器(attention,前馈网络),解码器(attention,前馈网络,mask),loss,反向传播,优化器。通过embedding层得到三个token的embedding,假定分别为:[1, 0, 1, 0],[0, 2, 0, 2],[1, 1, 1, 1]
2024-08-01 16:37:11
2031
原创 为什么现在的LLM都是Decoder only的架构?
参考:https://www.zhihu.com/question/588325646/answer/3357252612。
2024-08-01 15:19:14
355
原创 AP(Average Precision)、APr(AP at Recall)、APc(AP for Common Classes)和APf(AP for Frequent Classes)定义
总结来说,AP、APr、APc和APf都是用于评估目标检测模型性能的重要指标,但它们分别关注不同的方面:AP关注整体平均精度,APr关注不同召回率下的平均精度,APc和APf则分别关注常见类和频繁类别的检测性能。APr指的是在不同召回率下的平均精确率。具体来说,APr是在不同召回率水平下计算出的AP值的平均值,这有助于了解模型在高召回率情况下的表现。AP的计算通常会根据不同的IoU(交并比)阈值进行,例如50%、75%等,并对每个阈值下的精确率进行平均,以得到最终的AP值。APc是针对常见类别的平均精度。
2024-07-31 11:35:36
1596
原创 yolo world 中文翻译
摘要You Only Look Once (YOLO) 系列检测器已成为高效实用的工具。然而,它们对预定义和训练的对象类别的依赖限制了它们在开放场景中的适用性。为了解决这一限制,我们引入了 YOLO-World,这是一种创新方法,通过视觉语言建模和大规模数据集的预训练来增强 YOLO 的开放词汇检测功能。具体来说,我们提出了一种新的可重新参数化的视觉语言路径聚合网络(RepVL-PAN)和区域文本对比损失,以促进视觉和语言信息之间的交互。我们的方法擅长以零样本的方式高效地检测各种物体。
2024-07-31 10:10:42
704
原创 大模型llm榜单
为了应对这一挑战,Open LLM Leaderboard采取了一项举措,它利用Eleuther AI的语言模型评估工具,针对六个核心任务对各模型进行严格的基准测试:包括AI2推理挑战、HellaSwag、MMLU(多项选择常识推理)、TruthfulQA(诚实性问答)、Winogrande以及GSM8k(数学问题理解)。对于用户而言,关键模型的性能可以通过灵活多样的API接口轻松查询,实时提供最新且具有针对性的性能对比信息,助力决策者和研究人员快速把握模型间的性能差异,指导技术选型与研究方向。
2024-07-30 10:21:24
1262
原创 大模型测评
在人工智能领域,大语言模型已经成为了技术创新的重要驱动力。OpenCompass 升级版大语言模型评测工具:提供全面的大模型评测功能,包括广泛模型支持、高效评测速度、主观评测能力、数据污染检查和丰富的长文本评测能力。OpenCompass 推出大模型评测全栈工具链 CompassKit,不仅提供完整的开源可复现评测代码,更提供了丰富的模型支持和高效的分布式评测策略。VLMEvalKit 多模态大模型评测工具:一站式多模态评测工具,支持主流多模态模型和数据集,助力社区比较不同多模态模型在各种任务上的性能。
2024-07-29 18:22:01
375
原创 InternVL
新一代“书生·视觉基础”模型的视觉编码器参数量达 60 亿(InternVL-6B),首次提出对比-生成融合的渐进式对齐技术,实现了在互联网级别数据上视觉大模型与语言大模型的精细对齐。上海 AI 实验室在视觉大模型上持续发力,在 2021 年、2022 年先后推出书生 1.0 和 InternImage,不仅及模型性能领先,还构建了视觉大模型的新架构。InternVL-6B 不仅能处理复杂图片中细微的视觉信息并完成图生文任务,还可以识别和解读复杂页面中的信息,甚至解决其中的数理问题。
2024-07-19 11:05:19
380
原创 视频跟踪Track Anything Model
pc_search_result_base6&utm_term=davis2016指标是什么&spm=1018.2226.3001.4187。devis使用和评价:官方评价api。官方github:有代码和相关案例。评价指标 :相关细节补充。xmem文献:原始文献。tam文献:原始文献。
2024-07-19 10:52:01
194
原创 深度估计模型Depth Anything 相关链接
抱抱脸的api:测试太大的图不行(1000*1000左右就不行),资源占用比较多。midas文献:大牛学者作品,引用较多,很好用的方法,但是没有开源。官方代码:github源码,代码还有一些bug,需要自行修改。dinov2源码:github代码,有相关演示内容。depth anything文献:原始文献。dinov2文献:很强大的基础模型。
2024-07-19 10:37:59
388
原创 Zero-shot通俗理解
例如,如果我们告诉模型“猫”是一种小型、有毛、四足、会喵喵叫的动物,而“鹰”是一种大型、有羽毛、两足、会飞翔的动物,即使模型从未见过这两种动物,它也可以通过这些描述来区分新的猫和鹰的图片。Zero-shot学习(Zero-shot Learning,ZSL)是深度学习领域中的一个重要研究方向,它旨在让机器学习模型能够在没有见过特定类别样本的情况下,对该类别进行识别或分类。Zero-shot学习的目标是让模型能够在只有有限类别训练数据的情况下,识别出新的、未见过的类别。Zero-shot的应用。
2024-07-19 10:31:29
596
原创 DINOv2相关链接
copy detection pipeline文献:相关引用,可以用于全目标数据,重点研究!dinov2文献:原始文献,第二部分有很多自监督、弱监督相关引用,需要挑选并研究。相关说明2:解释了一些细节,而且有一些分析讨论,还有一个类似数据处理库相关教程。dinov2-retrieval工具:可以实现dinov2中数据查找,需要测试。fsdp相关介绍:初步了解,可能用于训练加速。ibot文献:相关引用,核心技术之一。swav文献:相关引用,核心技术之一。相关说明1:解释了一些细节。dino文献:原始文献。
2024-07-19 10:20:13
499
原创 sam相关链接
sam医学方面应用:在医学方面使用,如何微调,怎么适配具体任务、数据等。sam细节:非常全面,把每一步的张量维度都说清楚了,便于理解。sam细节2 :相关细节补充,文中的vit是原始版本的。point位置信息引用文献:暂时没有研究,关键技术之一。sam相关实验指标 :总结的不错。分析和讨论:有的内容、分析很不错。官方demo:可以做一些测试。代码解读:重点标记。
2024-07-18 16:58:07
189
原创 目标检测正负样本分配策略----ATSS
表示适合GT的FPN层数,标准差高则表示高质量的anchor box集中在一个层中,应将阈值加上标准差来过滤其他层的anchor box,低则表示多个层都适合该GT,将阈值加上标准差来选择合适的层的anchor box,均值和标准差结合作为IoU阈值能够很好地自动选择对应的特征层上合适的anchor box。表示预设的anchor与GT的匹配程度,均值高则应当提高阈值来调整正样本,均值低则应当降低阈值来调整正样本。2.计算每个候选正样本和groundtruth之间的IOU,计算这组IOU的均值和方差。
2024-01-11 18:43:29
1007
原创 TypeError: Model.forward() missing 1 required positional argument: ‘x‘解决方法
分析是只有1个gpu获得了数据。改成dump_image = torch.zeros((2, 3, imgsz, imgsz), device=device)就能用2个gpu了。网上搜索都是说减少gpu个数,试了1个gpu可以运行,多个的时候就不能运行,但这并没有解决问题。
2024-01-03 18:58:40
2097
原创 正负样本分配策略simOTA
在目标检测中,有时候经常会出现一些模棱两可的anchor,如图3,即某一个anchor,按照正样本匹配规则,会匹配到两个gt,而retinanet这样基于IoU分配是会把anchor分配给IoU最大的gt,而OTA作者认为,将模糊的anchor分配给任何gt或背景都会对其他gt的梯度造成不利影响,因此,对模糊anchor样本的分配是特殊的,除了局部视图之外还需要其他信息。减少了参数量和GFLOPs,使速度更快,且表现更好。①使用anchor时,为了调优模型,需要对数据聚类分析,确定最优锚点,缺乏泛化性。
2024-01-03 16:35:38
1569
原创 milvus学习(一)cosin距离和欧式距离
参考:https://blog.csdn.net/qq_36560894/article/details/115408613。归一化以后的cosin距离和欧式距离可以相互转化,未归一化的不可以相互转化(因为距离带单位)。
2024-01-02 17:20:20
832
原创 yolo系列相关损失函数
其实就是通过降低missing样本loss的权重,降低其在反向传播中的比重,达到降低missing样本的负面影响的目的。主要思路是: 通过增加困难样本的权重,让模型专注于困难样本(hard_sample)的学习,防止简单样本(easy_sample)过多主导训练的进程,可以解决难样本过少的问题。QFocalLoss是2020年的一篇文章,主要是解决FocalLoss只能适用于标签是0-1这样的二分类或者多分类任务,对于使用了label smooth的任务则无法使用。
2023-12-29 18:43:35
920
原创 yolov7中添加fppi评价指标
参考:https://blog.csdn.net/liuhao3285/article/details/135233281?yolov7中增加FPPI。
2023-12-29 18:19:33
547
原创 yolov5模型蒸馏
参考代码:https://github.com/Adlik/yolov5yolov5间的模型蒸馏,相同结构的。配置参数加载教师模型。
2023-12-25 18:24:57
1351
原创 多任务学习(MTL),分类任务调研
隐层参数的硬共享机制hard parameter sharing:在所有任务之间共享隐藏层,同时保留几个特定任务的输出层来实现。降低了过拟合的风险。直观来讲,越多任务同时学习,我们的模型就能捕捉到越多任务的同一个表示,从而导致在我们原始任务上的过拟合风险越小。隐层参数的软共享机制soft parameter sharing:每个任务都有自己的模型,自己的参数。模型参数之间的距离是正则化的,以便鼓励参数相似化。
2023-12-18 18:15:06
490
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅