自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

白水空空

努力努力再努力

  • 博客(308)
  • 资源 (13)
  • 收藏
  • 关注

原创 【读点论文】Segment Anything Is Not Always Perfect: An Investigation of SAM on Different...

实际上,专用的预训练数据集很难涵盖大量不寻常的现实世界场景和成像模式,特别是对于具有各种条件(例如,低光、鸟瞰图、雾、雨)或采用各种输入模式(例如,深度、红外、事件、点云、CT、MRI)以及大量现实世界应用的计算机视觉社区。SAM 在以下应用上的定量结果:(a) 常见场景中的显著物体分割、(b) 低对比度场景中的显著物体分割、© 低光场景中的显著物体分割、(d) 具有高精度细节的显著物体分割(即二分图像分割)、(e) 伪装物体分割、(f) 阴影检测、(g) 隐蔽工业缺陷检测和 (h) 医学息肉病变分割。

2024-07-26 17:32:19 473

原创 【读点论文】Enhancing Multimodal Large Language Models with Vision Detection Models: An Empirical Study

更换检测模型后训练效果的继承。在表 5 中,我们比较了将检测模型 DINO 替换为 Grounding DINO 后 TFI-7B 和 FTBI-7B 的性能。我们使用 VQAv2、GQA∗、POPE、MM-Vet 和 SEED-Bench 进行评估,因为它们包含可以提取有效名词短语的问题。由于 Grounding DINO 的检测准确率较低,因此引入了一些噪音,导致两个模型的评估分数与 LLaVA-1.5-7B 相比有所降低。

2024-07-25 19:40:46 572

原创 【读点论文】An Empirical Study of Scaling Law for OCR,又提出一个数据集,真实样本:合成样本=1:3。在TrOCR和PARSeq上大力出奇迹

在自然语言处理 (NLP) 领域,模型大小、数据量、计算和模型性能的规律已经得到广泛研究。然而,光学字符识别 (OCR) 中的缩放规律尚未得到研究。为了解决这个问题,我们进行了全面的研究,包括检查文本识别领域的性能与模型规模、数据量和计算之间的相关性。 总而言之,当其他影响因素保持不变时,研究表明性能与模型大小以及训练数据量之间存在平滑的幂律。此外,我们构建了一个名为 REBU-Syn 的大型数据集,其中包含 600 万个真实样本和 1800 万个合成样本。基于我们的缩放规律和新数据集,我们成功训练...

2024-07-24 15:20:26 559

原创 【读点论文】The Segment Anything Model (SAM) for Remote Sensing Applications: ... 感觉行文、绘图不太行,方法介绍有点水

这种效率对于大规模遥感应用至关重要,因为及时处理大量数据至关重要。然而,我们的研究只是对该模型的初步探索,其中仍有许多需要研究的地方。在本节中,我们将讨论 SAM 的未来前景以及如何改进它。尽管 SAM 具有潜力,但在应用于遥感图像时仍存在一些局限性。

2024-07-23 16:22:31 885

原创 【读点论文】torchdistill Meets Hugging Face Libraries for Reproducible, Coding-Free Deep Learning Studies

这些可以在实验开始时加载 PyYAML 配置文件时简单地完成,并使配置文件更加不言自明,因为初始版本使用的配置格式没有明确告诉用户实验是否需要特定的本地包。这些功能还帮助我们概括了定义关键模块(例如数据集及其组件(例如预处理转换、采样器))的方法。下图展示了使用初始版本和本工作中的 torchdistill 构建图像/张量变换序列的示例。

2024-07-18 19:48:13 805

原创 【读点论文】torchdistill: A Modular, Configuration-Driven Framework for Knowledge Distillation,文件配置完成知识蒸馏

我们框架中模块抽象的一个目标是让研究人员只需更改第 2.3 节中描述的 PyYAML 配置文件即可试验各种模块。我们将抽象重点放在要进行实验的关键模块上,特别是模型架构、数据集、转换和训练期间要最小化的损失。这些模块通常在作者发布的框架 中是硬编码的(参见附录 A),许多超参数也是硬编码的。模型架构:torchvision 为视觉任务提供了各种模型系列,从 AlexNet 到 R-CNN ,其中许多模型都是在大型基准数据集上进行预训练的。

2024-07-17 18:34:39 1029

原创 【读点论文】Low-Light Image Enhancement Using Gamma Correction Prior in Mixed Color Spaces,对低光恢复细节高效预处理

ASM 是一种物理图像退化模型,广泛应用于计算机视觉和图像处理,尤其是在图像去雾框架中。ASM 可以通过反转低光图像应用于 LIE。该框架需要精确的传输图估计。在我们之前的工作 [Low-light image enhancement using inverted image normalized by atmospheric light] 中,传输是以色调、饱和度和值 (HSV) 颜色空间中单个未知饱和度分量的闭式形式推导出来的。对于选定的饱和拉伸函数,提出了一种图像饱和拉伸函数的自适应形状。高光照欠佳

2024-07-16 15:29:06 634

原创 【读点论文】Group-Mix SAM: Lightweight Solution for Industrial Assembly Line Applications,MobileSAM做教师模型

本文针对MobileSAM因边缘计算机计算能力不足、内存占用过多而无法部署在流水线上的问题,提出了用更小的图像编码器结构Groupmixformer取代MobileSAM编码器中原有的ViT-T结构,取得了很好的效果,将得到的模型命名为Group-Mix SAM。在实际的流水线中,负责运行算法的是边缘计算机,这些边缘计算机的购买通常受限于价格,存在内存不足、计算能力弱等问题。因此,为了在实际的流水线场景中部署使用,我们需要将重量级的图像编码器替换为轻量级的图像编码器,以减小 SAM 的大小。

2024-07-13 16:28:16 810

原创 【读点论文】EFFICIENT MODULATION FOR VISION NETWORKS,构建了一个高效的特征调制块,配套做了很多的实验,探讨了一些推理速度与模型设计及平台配置的关系

提出了高效调制 (EfficientMod),这是一种统一的基于卷积的构建块,它结合了卷积和注意机制的有利特性。EfficientMod 同时提取空间上下文并投射输入特征,然后使用简单的元素乘法将它们融合在一起。EfficientMod 的优雅设计满足了效率要求,而固有的设计理念则保证了出色的表示能力。借助 EfficientMod,我们构建了一系列高效模型。大量实验检验了我们方法的效率和有效性。EfficientMod 在经验结果和实际延迟方面都优于以前的 SOTA 方法。当应用于密集预测任务时也不错

2024-07-11 16:52:19 817

原创 【读点论文】ASAM: Boosting Segment Anything Model with Adversarial Tuning,对抗学习提升性能

基础模型的概念在推动自然语言处理 (NLP) 领域以及最近的计算机视觉领域中发挥了关键作用。这些模型起源于 NLP,具有影响力的模型包括 BERT 、GPT 系列 、LLaMA 和 PaLM ,它们展示了对未见过的任务的出色零样本泛化能力。这一成功刺激了计算机视觉领域类似范式转换模型的发展。 这些视觉基础模型,例如 DINOv2 、CLIP 、BLIP 、SAM 和 Stable Diffusion ,展示了出色的零样本能力和跨各种任务的广泛泛化能力。其中,Segment Anything Model

2024-07-10 19:39:50 927

原创 【读点论文】All-In-One Image Restoration for Unknown Corruption用对比学习统一方法实现多种噪声图片的有效处理

单幅图像复原旨在从给定的劣化对应关系(例如嘈杂、下雨或朦胧的图像)中生成视觉上令人愉悦的高质量图像。在过去的几年中,图像复原已广泛应用于从自动驾驶到医学成像和监控等许多现实世界应用中。尽管在去噪、去模糊、去雨和去雾等特定领域已经取得了有希望的成果,但图像恢复在实践中遇到了以下障碍。一方面,有必要了解正确的损坏(即退化)以选择有竞争力的模型,因为几乎所有现有方法都只能处理特定的退化。一旦退化类型甚至损坏率发生变化,由于实际情况与模型构建或训练所采用的先验不一致,模型将获得不理想的性能。另一方面,退化通常会在复

2024-07-09 10:26:23 1121

原创 【读点论文】Details preserved brightness equalization algorithm for non-uniform illumination images

将本文算法与几种近几年光照不均图像增强方法进行比较,如 Kong等提出的基于增强子的非均匀图像增强算法(EBCE)、王殿伟等提出的基于改进二维伽马函数自适应亮度校正算法(ACA)、Wang 等提出的自然度保持的非均匀照明图像增强方法(NPEA),其结果显示于图 4~图 11 中。NPEA 算法对于保持图像自然度和细节占有优势,但其对光照的双对数变换处理使其对于弱光照区域的细节增强处于劣势,如图 4(d)中拱门内白色电线轨迹较不明显,图 9(d)、图11(d)中墙体产生伪边缘。增强度越高,则增强效果越明显。

2024-07-08 17:55:11 665

原创 【读点论文】基于二维伽马函数的光照不均匀图像自适应校正算法

摘 要:提出了一种基于二维伽马函数的光照不均匀图像自适应校正算法.利用多尺度高斯函数提取出场景的光照分量,然后.通过与经典算法对比表明,本文算法可以更好地降低光照不均匀对图像的影响,提高图像的质量.

2024-07-05 18:00:22 640

原创 【读点论文】Gray level thresholding in badly illuminated image,光照不均匀的二值化

大多数灰度阈值化方法在原始栅格图像中光照梯度规律且不大的情况下能够产生非常好的结果。在其他情况下,比如光照变化幅度较大时,就无法生成令人满意的二值图像。一种方法是首先定位目标像素,。可以有很高的把握地认为,。Local Intensity Gradient (LIG) 是一种基于局部图像属性分析的方法,主要用于图像处理和计算机视觉领域,尤其是在边缘检测、特征提取和图像分割等任务中。:图像中的每一个像素点都有一个灰度值,灰度梯度描述的是相邻像素间灰度值的变化率。

2024-07-02 13:27:52 1079 1

原创 跟着DW学习大语言模型-通过实践案例学习使用langchain构建基于LLM的RAG应用,实现信息到知识的跨越。实践中学习构建流程,结合需求进行工程设计,打造专属AI,赋能各种场景

在对知识库文本进行分割和向量化后,就需要定义一个向量数据库用来存放文档片段和对应的向量表示了,在向量数据库中,数据被表示为向量形式,每个向量代表一个数据项。定义向量库对应的代码也在。RAG模型通过检索相关文档来增强其回答生成的上下文,使得生成的答案不仅仅依赖于模型训练时的知识,还结合了额外的、具体问题相关的信息。第二步,向量化(embedding),这是将文本、图像、音频和视频等转化为向量矩阵的过程,也就是变成计算机可以理解的格式,embedding模型的好坏会直接影响到后面检索的质量,特别是相关度。

2024-06-30 13:03:50 383

原创 【读点论文】RobustSAM: Segment Anything Robustly on Degraded Images,提出了预处理退化模块,整合了一个退化图像数据集

精心策划的 Robust-Seg 数据集旨在训练和评估 RobustSAM 模型,它包含一个丰富的存储库,其中包含 43,000 张图像和相应的带注释的蒙版。此外,我们扩展了实验范围,使用降级清晰图像对对 SwinIR、MW-Net 和 Air-Net 进行微调,然后应用 SAM(称为 SwinIR-F、MW-Net-F 和 Air-Net-F)。在可见数据集上的比较。“降级”是指经过 15 种不同类型的降级的图像集,“清晰”是指原始的、未降级的图像,“平均”表示“降级”和“清晰”场景的加权和平均值。

2024-06-28 13:42:27 919

原创 跟着DW学习大语言模型-使用Streamlit构建一个RAG应用

现在我们已经实现了通过上传本地知识文档,然后将他们保存到向量知识库,通过将查询问题与向量知识库的召回结果进行结合输入到 LLM 中,我们就得到了一个相比于直接让 LLM 回答要好得多的结果。将介绍 LangChain 中的储存模块,即如何将先前的对话嵌入到语言模型中的,使其具有连续对话的能力。例如,我们向 LLM 提问一个问题(answer),RAG 从各种数据源检索相关的信息,并将检索到的信息和问题(answer)注入到 LLM 提示中,LLM 最后给出答案。另外,也有助于缓解大模型的“幻觉”问题。

2024-06-26 23:39:02 766

原创 跟着DW学习大语言模型-什么是知识库,如何构建知识库

LangChain 可以直接使用 OpenAI 和百度千帆的 Embedding,同时,我们也可以针对其不支持的 Embedding API 进行自定义,例如,我们可以基于 LangChain 提供的接口,封装一个 zhipuai_embedding,来将智谱的 Embedding API 接入到 LangChain 中。:是一个开源向量数据库。文档分割:由于单个文档的长度往往会超过模型支持的上下文,导致检索得到的知识太长超出模型的处理能力,因此,在构建向量知识库的过程中,我们往往需要对文档进行分割,

2024-06-24 23:31:53 1159

原创 【读点论文】SqueezeSAM: User-Friendly Mobile Interactive Segmentation,运用显著性特征分割,目的在于移动设备的编辑(iPhone人物抠图)

精度和速度均超越FastSAM、MobileSAM!SqueezeSAM比SAM快50倍,小100倍!可以部署到任何移动设备,适用于常见的照片编辑应用,其中引入显著性目标检测,可自动创建初始分割,简化了编辑流程。单位:Meta(EfficientSAM作者团队)Segment Anything Model(SAM)是交互式分割的基础模型,它促进了生成人工智能、计算摄影和医学成像的重大进展。该模型接受任意用户输入,并提供相应对象的分割掩码。本文的目标是开发一个适合在摄影应用中使用的SAM版本。

2024-06-23 11:26:56 870

原创 跟着DW学习大语言模型-大模型开发中prompt技术与艺术,学习通义langchain构建应用

为了更好帮助读者理解大模型Agent调用的原理,下面的代码是我们自己定义了一个简单的工具类 SearchTool 类,而不是继承自langchain的 BaseTool。从这里我们看到,LangChain方法主要思路是通过详细定义的Prompt让大模型反复思考“大模型目前获得的信息是否可以回答用户的问题”,如果不能解答用户的问题,大模型应该使用何种工具;当取值较高接近 1 时,预测的随机性会较高,所有词被选择的可能性更大,会产生更有创意、多样化的文本,更有可能生成不寻常或意想不到的词。

2024-06-22 21:34:10 1019

原创 跟着DW学习大语言模型-了解一些历史渊源

开发大模型相关应用,其技术核心点虽然在大语言模型上,但一般通过调用 API 或开源模型来实现核心的理解与生成,通过 Prompt Enginnering 来实现大语言模型的控制,因此,虽然大模型是深度学习领域的集大成之作,大模型开发却更多是一个。作为重要的研究方向之一,语言模型得到了学术界的广泛研究,从早期的统计语言模型和神经语言模型开始,发展到基于Transformer的预训练语言模型。ChatGPT 从本质上来说是一个 LLM 应用,是基于基座模型开发出来的,与基座模型有本质的区别。

2024-06-18 23:44:51 1045

原创 注意力机制,代码简析

2017年Google在论文《Attention is All You Need》中提出了Transformer模型,并成功应用到NLP领域。该模型完全基于自注意力机制Attention mechanism实现,弥补了传统的RNN模型的不足。宏观层面,Transformer可以看成是一个黑箱操作的序列到序列(seq2seq)模型。例如,在机器翻译中,输入一种语言,经Transformer输出翻译后的另一种语言。拆开这个黑箱,可以看到模型本质就是一个Encoders-Decoders结构。Self - Att

2024-05-24 11:07:59 446

原创 sam代码简析

TwoWayAttentionBlock是Prompt encoder的提示信息特征与Image encoder的图像特征的融合过程,而Prompt encoder对提示信息没有过多处理,因此TwoWayAttentionBlock的目的是。Multi-Head Attention:先从Attention讲解,再到Multi-Head Attention,最后再讲注意力特征嵌入了相对位置特征的Multi-Head Attention。checkpoint就是权重文件路径,刚才下载的文件,把路径放进去即可。

2024-05-23 21:48:28 847

原创 【读点论文】Segment Anything Model is a Good Teacher for Local Feature Learning通过SAM大模型学习局部特征匹配

局部特征检测和描述是计算机视觉的一项基本任务,广泛用于图像匹配、运动结构(SfM)、同时定位和映射(SLAM)、视觉定位和图像检索任务。基于SIFT和ORB的手工启发式等传统方案无法应对剧烈的照明和视点变化。在深度学习的浪潮下,数据驱动的局部特征学习方法最近取得了优异的性能。这些方法需要基于图像对之间完全准确和密集的 GT 对应来训练局部描述符,忽略人类用来描述图像像素的语义信息。一个简单的想法是使用传统的语义分割模型来促进关键点的检测和描述。然而,这在实践中是不可行的,因为它们只能识别有限数量的粗粒度对象

2024-05-17 09:16:51 778 1

原创 【读点论文】TinyMIM: An Empirical Study of Distilling MIM Pre-trained Models,基于输出,特征,关系蒸馏的探索实践,将大模型的知识迁到终端

现代深度学习应用基于繁琐的神经网络,具有容量大、内存占用多、推理延迟慢等特点。将这些模型部署到生产中是一项巨大的挑战。知识蒸馏是一种优雅的机制,可以训练出更小、更轻、更快、更便宜的学生模型,而学生模型则来自于庞大、复杂的教师模型。在 Hinton 及其同事(2015 年)将知识蒸馏概念化之后,采用知识蒸馏方案为生产用例获取高效、轻量级模型的情况大量增加。知识蒸馏是一种复杂的技术,基于不同类型的知识、训练方案、架构和算法。知识提炼已在计算机视觉、自然语言处理、语音等多个领域取得了巨大成功。

2024-05-14 10:36:42 344

原创 知识蒸馏,需要合适的教师模型,学生模型,蒸馏数据,损失函数,训练策略,让小模型有大模型的知识

知识蒸馏是一种将知识从一个神经网络(教师)转移到另一个神经网络(学生)的技术,如需更深入地了解知识蒸馏,建议阅读[。这一过程有多种形式,可分为以下几类响应知识蒸馏: 使用 divergence 损失(即使用 KL 散度)训练输出类概率分布,使其与教师概率分布相匹配。特征知识蒸馏: 训练学生模型的内部特征,使其与教师模型的内部特征直接匹配(即:使用均方误差)。关系知识蒸馏: 训练教师模型中特征的相对分布,使之与学生模型中特征的相对分布相匹配。

2024-05-10 18:47:13 980

原创 【读点论文】GhostNetV3: Exploring the Training Strategies for Compact Models,感觉是调参作品,知识蒸馏,学习率调整,EMA,重参数...

目前最先进的模型MobileFormer实现了79.3%的前1级精度,延迟为129.58ms,这在现实世界的应用中是负担不起的。接下来,我们将GhostNetV3与其他基于CNN的紧凑型模型进行比较,包括MobileNets、ShuffleNets、MixNet、MNASNet、FBNet、EfficientNet和MobileOne,其中FBNet、MNASNet和MobileNetV3是基于搜索的模型,其他是手动设计的模型。因此,KD 采用更大的模型作为教师来指导紧凑模型的学习,是提高性能的合适方法。

2024-05-08 20:17:39 648

原创 【读点论文】SAM-LIGHTENING: A LIGHTWEIGHT SEGMENT ANYTHING MODEL,改进自注意力机制,然后知识蒸馏提点

值得注意的是,图像编码器是SAM中参数密集度最高的部分,占其处理时间的98.3%,这突出了优化的必要性。重要的是,下表显示,SAM Lightening在推理延迟和峰值内存使用方面优于所有同类产品,与普通SAM相比实现了30.1倍的加速,峰值内存减少了96.5%,与最先进的相比实现了2.1倍的加速。从头开始训练SAM Lightening是昂贵的,而层适应是具有挑战性的,因为以ViT-H作为特征编码器的SAM和SAM Lighteniing之间的独特结构。基于mIOU的COCO和LVIS分割性能比较。

2024-05-08 11:17:29 1049

原创 【读点论文】MobileNetV4 - Universal Models for the Mobile Ecosystem,用屋顶线探索硬件极限,提升计算效率和精度平衡点

具体而言,MNv4-Conv-M模型比MobileOne-S4和FastViT-S12都快50%以上,同时在相当的延迟下,也比MobileNet V2将Top-1的准确性提高了1.5%。值得注意的是,我们使用现代训练配方增强了MobileNet系列(V1、V2、V3),从而大幅提高了准确性:MobileNet V1的准确率提高了3.4%,达到74.0%,V2的准确率增加了1.4%,达到73.4%,V3的准确率增加了0.3%,达到75.5%。FC层和DW-Conv2D在低RP下是便宜的,在高RP下是昂贵的。

2024-05-07 10:41:56 1201

原创 【读点论文】EdgeSAM: Prompt-In-the-Loop Distillation for On-Device Deployment of SAM,知识蒸馏,更适合部署的轻量卷积网络作为主干

然而,正如我们在第3.2.3节中所讨论的,对于不明确的提示,例如单个点,原始SAM并不总是以所需的粒度产生掩码。各拟议组成部分的有效性。此外,它在不准确分割的区域动态生成新提示的策略将更多的注意力放在这些区域上,在这个过程中创建了不同的提示组合。这种方法旨在实现三个关键目标:(1)从最初的提示(无论是方框还是点)动态生成一组不同的提示组合,(2)准确识别mask 内学生模型显示不准确的区域,从而将其注意力集中在这些特定的部分,以及(3)迫使教师模型,即SAM,生产高质量的mask,以获得更精确的指导。

2024-04-22 11:19:54 883

原创 【读点论文】TinySAM: Pushing the Envelope for Efficient Segment Anything Model,先蒸馏然后量化,配合分层采样点网格加速every模式

分割一切模型(Segment Anything Model,SAM)展现出了强大的分割万物能力,但是网络结构复杂,计算代价高,在资源受限的端侧应用中无法直接使用。同时,我们发现在SAM的Everything推理模式中,原始的网格点prompt的方式会带来巨大的计算代价。针对这个问题,我们提出了TinySAM模型,利用知识蒸馏、量化等手段对模型做了极致的压缩,同时提出了再Everything推理模式下的层次化推理策略。TinySAM在计算代价降低多个数量级的情况下,仍然保持了SAM模型强大的zero-shot

2024-04-20 11:16:55 726

原创 【读点论文】EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment Anything,知识蒸馏,对齐图像编码器特征

我们提出了一种称为SAMI的利用SAM的掩蔽图像预训练框架,该框架训练模型以从SAM ViT-H图像编码器重建特征。结果表明,这可以显著提高图像掩蔽预训练方法的性能。我们证明了SAMI预训练的主干可以很好地推广到许多任务,包括图像分类、对象检测和语义分割。我们提供EfficientSAMs,轻量级SAM模型,具有最先进的质量-效率权衡(下图),这是对实际部署SAM的补充。将发布代码和模型,以使一系列高效SAM应用程序受益。对比分析结果。(顶部)EfficientSAM模型概述,以经过良好预训练的轻量级图像编

2024-04-19 10:17:33 970

原创 【读点论文】YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information,实践才出真知

今天的深度学习方法侧重于如何设计最合适的目标函数,使模型的预测结果最接近实际情况。同时,必须设计一种适当的架构,该架构可以促进获取足够的信息用于预测。。本文将深入研究数据通过深度网络传输时数据丢失的重要问题,即信息瓶颈和可逆函数。我们提出了可编程梯度信息(PGI)的概念,以应对深度网络实现多个目标所需的各种变化。。此外,还设计了一种新的基于梯度路径规划的轻量级网络架构——广义高效层聚合网络(GELAN)。GELAN的架构证实了PGI在轻量级模型上取得了卓越的成果。

2024-04-17 10:50:13 771

原创 【读点论文】YOLOX: Exceeding YOLO Series in 2021,无锚框单阶段目标检测方案,解耦检测头的分类和回归分支,优化标签分配策略

然而,我们发现,合适的增强策略因不同尺寸的模型而异。无锚机制显著减少了需要启发式调整的设计参数的数量和所涉及的许多技巧(例如,锚聚类,网格敏感),以获得良好的性能,使检测器,特别是其训练和解码阶段,变得相当简单。每个gt 的大小、尺度和遮挡条件不同,所以其提供的positive label数量也应该是不同的,如何确定每个gt的正样本数 k 值呢,论文提供了一个简单的方案,该方法称之为:Dynamic k Estimation,具体做法如下:从前面的pair_wise_ious中,给每个目标框,挑选。

2024-04-16 20:05:57 1564

原创 【读点论文】MobileSAMv2: Faster Segment Anything to Everything,改变prompt的密度,降低掩码解码器的冗余网格搜索

不同的任务可能需要不同的网格密度。SegAny的计算瓶颈在于其图像编码器,而SegEvery的计算瓶颈主要在于其在需要高网格搜索密度时的掩码解码器([sam]中的零样本对象建议采用64×64点)。SegEvery和我们提出的采样策略需要运行对象发现算法来获得对象感知提示,这需要比[sam]中的默认网格搜索采样更多的提示采样时间,但需要编码更少的提示。下表中的结果表明,通过上述两种做法中的任何一种产生更少的掩码都会导致性能下降,这表明默认的网格搜索采样策略高度依赖于产生冗余掩码来选择最终需要的掩码。

2024-04-13 19:07:03 905

原创 【读点论文】FASTER SEGMENT ANYTHING: TOWARDS LIGHTWEIGHT SAM FOR MOBILE APPLICATIONS。先换为小图像编码器,一种解耦的知识蒸馏方法

值得强调的是,我们的MobileSAM比同期的FastSAM快约5倍,小约7倍,同时实现了卓越的性能。由于蒸馏的image encoder和原始的image encoder的结果非常相似,feautre的大小一致,这使得mask decoder的微调部分是可选的,鉴于SAM中的默认图像编码器基于ViT-H,获得MobileSAM的一个简单方法是遵循[Segment anything]中的官方管道,用较小的图像编码器重新训练新的SAM,比如用较小的ViT-L甚至更小的ViT-B替换ViT-H。

2024-04-13 11:13:15 1028

原创 【读点论文】Segment Anything,视觉界的GPT,可以通过Prompt完成图像实体理解的视觉基础大模型,处理零样本任务

SAM 主要由三个组件构成:图像编码器(ImageEncoder)、提示编码器(PromptEncoder)、和解码器(MaskDecoder)。图像编码器使用 MAE 进行预训练,整个 SAM 在拥有 11 亿标注的训练集 SA-1B 上进一步进行微调,训练时使用了 Focal loss 和 Dice loss 的组合。推理时,测试图片 x 首先由图像编码器进行编码,然后给定提示 Prompt,轻量级的解码器将进行三个级别的预测。SAM是一个提示型模型,其在1100万张图像上训练了超过10亿个掩码

2024-04-12 11:00:12 1199

原创 C++内存管理(可能对面试有用)

如果程序需要的内存大于物理内存,或者内存中剩余的空间不足以容纳当前程序,那么操作系统会将内存中暂时用不到的一部分数据写入到磁盘,等需要的时候再读取回来,而我们的程序只管使用 4GB 的内存,不用关心硬件资源够不够。这是一个很大的值,不但物理内存不可能达到这么大,CPU的寻址能力也没有这么大,实现64位长的虚拟地址只会增加系统的复杂度和地址转换的成本,带不来任何好处,所以 Windows 和 Linux 都对虚拟地址进行了限制,仅使用虚拟地址的低48位(6个字节),总的虚拟地址空间大小为。

2024-04-09 10:19:07 1035

原创 目标检测标签分配策略,难样本挖掘策略

但是作者采用了一种更加优雅的实现方式,其采用了一种可以直接插入当前anchor-base网络中进行anchor动态调整的做法,而不是替换掉原始网络结构,属于锦上添花,从此anchor-base就变成了anchor-base混合anchor-free了(取长补短),这就是一个不错的进步。在选择难负样本时,需要遵循一定的原则。只看图示就很好理解了,对于任何一个类别的样本,本质上是希望学习的概率为1,当预测输出接近1时候,该样本loss权重是很低的,当预测的结果越接近0,该样本loss权重就越高。

2024-04-07 16:21:51 1061 1

原创 深度学习八股文

Bert旨在通过联合左侧和右侧的上下文,从未标记文本中预训练出一个深度双向表示模型。因此,BERT可以通过增加一个额外的输出层来进行微调,就可以达到为广泛的任务创建State-of-the-arts 模型的效果,比如QA、语言推理任务。Bert的构成:由12层Transformer Encoder构成。bert的基本任务:mask language model 和 next sentence predict,mask language model的遮盖⽅式:选择15%的token进⾏遮盖,再选择其中80%进

2024-04-01 11:21:03 3316 5

2021-2022年的高精度模型,swin transformer.convnext等

目前Transformer应用到图像领域主要有两大挑战: 视觉实体变化大,在不同场景下视觉Transformer性能未必很好 图像分辨率高,像素点多,Transformer基于全局自注意力的计算导致计算量较大 针对上述两个问题,我们提出了一种包含滑窗操作,具有层级设计的Swin Transformer。 其中滑窗操作包括不重叠的local window,和重叠的cross-window。将注意力计算限制在一个窗口中,一方面能引入CNN卷积操作的局部性,另一方面能节省计算量。 ConvNeXt并没有特别复杂或者创新的结构,它的每一个网络细节都是已经在不止一个网络中被采用。而就是靠这些边角料的互相配合,却也达到了ImageNet Top-1的准确率。它涉及这些边角料的动机也非常简单:Transformer或者Swin-Transformer [3]怎么做,我也对应的调整,效果好就保留。当然这些边角料的摸索也是需要大量的实验数据支撑的,是一个耗时耗力耗资源的过程。通过对ConvNeXt的学习,我等调参侠不仅可以学习到诸多的炼丹经验,还可以一探其背后原理.

2023-02-04

轻量化混合(卷积和transformer)网络,发论文的热点

CNN的成功依赖于其两个固有的归纳偏置,即平移不变性和局部相关性,而视觉Transformer结构通常缺少这种特性,导致通常需要大量数据才能超越CNN的表现,CNN在小数据集上的表现通常比纯Transformer结构要好。 CNN感受野有限导致很难捕获全局信息,而Transformer可以捕获长距离依赖关系,因此ViT出现之后有许多工作尝试将CNN和Transformer结合,使得网络结构能够继承CNN和Transformer的优点,并且最大程度保留全局和局部特征。 Transformer是一种基于注意力的编码器-解码器结构,最初应用于自然语言处理领域,一些研究最近尝试将Transformer应用到计算机视觉领域。 在Transformer应用到视觉之前,卷积神经网络是主要研究内容。受到自注意力在NLP领域的影响,一些基于CNN的结构尝试通过加入自注意力层捕获长距离依赖关系,也有另外一些工作直接尝试用自注意力模块替代卷积,但是纯注意力模块结构仍然没有最先进的CNN结构表现好。

2023-02-03

mobilenet系列V1-V3

MobileNet网络是由google团队在2017年提出的,专注于移动端或者嵌入式设备中的轻量级CNN网络。相比传统卷积神经网络,在准确率小幅降低的前提下大大减少模型参数与运算量。(相比VGG16准确率减少了0.9%,但模型参数只有VGG的1/32) MobileNet v2网络是由google团队在cvpr2018年提出的,相比MobileNet v1网络,准确率更高,模型更小。 MobileNet v3发表于eccv2019年,该v3版本结合了v1的深度可分离卷积、v2的Inverted Residuals和Linear Bottleneck、新添加了SE模块,利用NAS(神经结构搜索)来搜索网络的配置和参数。

2022-06-05

shufflenetV1

入门理解级,了解shufflenet的核心内容

2022-06-05

图像分类方向的研究写作,中文学报写作格式,从数据集,经典网络角度分析。

从早期生物神经网络研究,到神经网络从实现深度化,模块化,引入注意力机制,再到实现高效化神经网络。这个时间节点比较火热的autoML,神经架构搜索技术等了解图像分类不仅仅只需要精度。

2022-06-05

人脸识别综述及应用,了解一下

多多交流,人脸识别,学习路上小插曲

2022-05-01

百度发文,pp-LCnet网络,pp-PicoDet算法,pp-shitu应用

组会汇报,学习讨论

2022-05-01

yolov2&deepid.pptx

人脸检测出发

2022-01-07

基于深度学习的图像语义分割分类(ISSbDL).xmind

基于深度学习的图像语义分割分类(ISSbDL).xmind

2021-12-21

deeplab系列,一种语义分割的选择.pptx

deeplab系列,一种语义分割的选择.pptx

2021-12-17

生成对抗网络与变种.pptx

生成对抗网络学习了解,分享

2021-12-12

分治法求众数.pptx

逐步讲解分治法求解众数。原为课程分享内容。

2021-12-03

卷积神经网络.pptx

对于卷积神经网络得概述与在计算机视觉的应用,学习分享,ppt制作

2021-09-29

自然语言处理,推荐系统答辩PPT.pptx

基于TF-IDF算法,结合simhash算法,中文分词等一些技术要点概述。应用了开源hanlp中文处理包

2021-09-11

白水空空-爬虫概论.pptx

可用于技术分析讲解,爬虫知识了解,使用效果和使用流程的预览。一些基本配置与使用均有分享和讨论,积极与博主沟通,完善相关文档

2021-09-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除