2024深度学习发论文&模型涨点之——UnSAM
无监督SAM(UnSAM)是一种在计算机视觉领域,尤其是图像分割领域取得重大进步的技术。UnSAM的核心在于它能够无需人工标注数据,即时启动并自动进行整体图像分割。这一技术采用了分而治之的策略,通过自顶向下的聚类方法将未标注的图像分割成实例级和语义级的segments,然后利用自底向上的聚类方法迭代合并像素,形成更大的组,建立层次结构。这些无监督的多粒度masks随后可用于监督模型训练
UnSAM的提出,标志着在无监督图像分割领域的一个重要进展,它不仅提高了无监督分割的性能,还展示了在某些半监督设置下超越全监督模型的潜力。
小编整理了一些UnSAM论文合集,以下放出部分。
论文精选
论文1:
A SAM-guided Two-stream Lightweight Model for Anomaly Detection
面向异常检测的SAM引导的双流轻量级模型
方法
-
双流轻量级模块(Two-stream Lightweight Module):使用两个轻量级图像编码器,由SAM指导,一个流生成正常和异常区域的判别和通用特征表示,另一个流重建无异常的相同图像。
-
共享掩码解码器(Shared Mask Decoder):与特征聚合模块一起使用,生成异常图。
-
特征聚合模块(Feature Aggregation Module):通过融合来自双流轻量级模型的特征,增强对异常区域的区分能力。
-
伪异常生成(Pseudo Anomaly Generation):通过在正常训练图像中引入伪异常,平衡正常和异常图像的数量。
创新点
-
SAM引导的双流结构:利用SAM的零样本分割能力,将知识蒸馏到学生网络中,提高了模型对未见异常和多样化正常模式的泛化能力。
-
轻量级模型设计:通过使用轻量级图像编码器和共享掩码解码器,减少了模型参数数量,同时保持了高性能,满足了移动设备上的实时应用需求。
-
特征聚合模块:通过设计轻量级的特征聚合模块,减少了训练和推理时的内存消耗,同时提高了异常检测的准确性。
-
实际应用中的效率和友好性:模型在保持高准确性的同时,具有快速的推理速度和较低的参数数量,使其适用于实际的工业应用场景。
论文2:
SAM-driven MAE pre-training and background-aware meta-learning for unsupervised vehicle re-identification
面向无监督车辆重识别的SAM驱动的MAE预训练和背景感知元学习
方法
-
空间约束的车辆背景分割(Spatially-constrained Vehicle Background Segmentation):利用SAM的分割能力,结合视觉编码器挖掘车辆与背景区域之间的空间关系,优化背景分割结果。
-
SAM驱动的MAE预训练(SAM-driven MAE Pre-training):使用上述分割结果选择属于车辆的补丁,并屏蔽其他补丁,允许MAE以自监督的方式学习身份敏感特征。
-
背景感知的元学习(Background-aware Meta-learning):通过结合不同背景区域比例,适应不同场景中不同程度的背景干扰。
创新点
-
空间约束的车辆背景分割方法:通过引入简单视觉编码器到SAM中,优化了背景分割结果,提高了在异常情况下(如模糊或遮挡)的鲁棒性。
-
SAM驱动的MAE预训练:提出了一种新的自监督预训练方法,使得下游重识别模型能够学习与背景无关的身份特征。
-
背景感知的元学习方法:设计了一种新的元学习方法,允许重识别模型适应不同背景干扰程度,提高了模型对背景变化的适应能力。
-
无监督车辆重识别的性能提升:实验表明,所提出的方法在减少背景干扰变化方面具有最先进的性能。
论文3:
Unsupervised Fault Detection using SAM with a Moving Window Approach
使用移动窗口方法的无监督故障检测
方法
-
移动窗口分割:将图像分割成小窗口,每个窗口单独通过SAM处理,以提高对局部细节的分割精度。
-
SAM分割:使用Segment Anything Model(SAM)对每个小窗口进行处理,生成分割掩码。
-
区域面积计算:计算分割区域的面积,以量化可能指示缺陷的重要区域。
-
阈值过滤:通过设定上下限阈值过滤掉不显著的区域,减少误报并集中分析潜在的缺陷区域。
-
适应性聚类算法:通过定义的容忍度水平对相似的分割区域进行聚类,识别可能代表实际缺陷的聚类。
-
指数加权移动平均(EWMA)技术:用于工业设置中的连续监测,提高方法在时间上追踪故障的能力。
创新点
-
移动窗口方法:通过关注更小的子图像,提高了SAM在处理局部细节时的准确性,增强了对缺陷的识别能力。
-
无监督学习:无需在收集的数据上进行训练,由于SAM的准确性,可以直接应用于缺陷检测,减少了对标记数据的依赖。
-
聚类算法与容忍度:提出了一种带有容忍度的聚类算法,通过过滤噪声和识别一致的缺陷区域来提高缺陷检测的准确性。
-
模型可解释性:模型的分割和聚类步骤是透明的,允许操作者看到每个决策是如何做出的,这在工业设置中对于理解缺陷检测背后的原因至关重要。
-
EWMA技术的应用:通过EWMA技术,增强了模型在工业设置中的适用性,特别是在需要连续监测和高精度故障检测的场合。
论文4:
EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment Anything
EfficientSAM:利用掩码图像预训练提高Segment Anything效率
方法
-
掩码图像预训练(SAMI):通过SAM图像编码器学习重建特征,以实现有效的视觉表示学习。
-
轻量级图像编码器和掩码解码器:使用SAMI预训练的轻量级图像编码器和掩码解码器构建EfficientSAM,并在SA-1B上微调以执行分割任务。
-
多种视觉任务评估:在图像分类、目标检测、实例分割和语义分割等多个视觉任务上进行评估。
创新点
-
SAMI预训练方法:提出了一种新的预训练方法,通过SAM图像编码器的掩码图像预训练,显著提高了视觉任务的性能。
-
轻量级模型:EfficientSAM模型在保持良好性能的同时,大幅减少了模型复杂度,使其在实时应用中更具可行性。
-
零样本实例分割:在零样本实例分割任务中,EfficientSAM表现出色,与COCO/LVIS上的其他快速SAM模型相比,AP得分有显著提升。
-
模型参数和推理吞吐量的优化:EfficientSAM在减少推理时间的同时,也减少了模型参数大小,提供了更好的质量和效率权衡。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。