![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
AIGC
文章平均质量分 84
mingo_敏
这个作者很懒,什么都没留下…
展开
-
Large Language Model系列之三:大模型并行训练(Parallel Training of Large Language Models)
Large Language Model系列之三:大模型并行训练(Parallel Training of Large Language Models)原创 2024-07-19 15:54:03 · 440 阅读 · 0 评论 -
Large Language Model系列之二:Transformers和预训练语言模型
Large Language Model系列之二:Transformers和预训练语言模型。原创 2024-07-16 09:22:33 · 865 阅读 · 0 评论 -
Large Language Model系列之一:语言模型与表征学习(Language Models and Representation Learning)
语言模型与表征学习(Language Models and Representation Learning)原创 2024-07-16 08:50:33 · 902 阅读 · 0 评论 -
深度学习论文: LLaMA: Open and Efficient Foundation Language Models
本文介绍了LLaMA,这是一系列基础而先进的语言模型,其参数规模横跨7亿至65亿不等,展现了强大的语言处理能力。研究表明,通过大规模公开数据的训练,LLaMA系列模型成功打破了对专有或受限数据集的依赖,达到了业界最前沿(SOTA)的性能水平。本研究的核心目标是通过显著增加训练中的token数量,开发出在不同推理场景下均能展现出卓越性能的语言模型。LLaMA模型家族以其多样的参数配置,为语言模型领域带来了新的竞争力量。原创 2024-07-10 11:27:18 · 1587 阅读 · 1 评论 -
深度学习论文: MobileSAMv2: Faster Segment Anything to Everything
SAM模型应对两大分割任务的挑战:SegAny,针对单一感兴趣对象的分割;SegEvery,负责图像中所有对象的分割。SAM在SegAny任务上的效率问题已通过MobileSAM的知识蒸馏技术得到优化。然而,SegEvery任务的效率瓶颈在于其掩码解码器,这一问题通过直接生成有效掩码的方式得到改进,避免了冗余的网格搜索和后续过滤步骤。原创 2024-07-12 16:07:19 · 494 阅读 · 0 评论 -
CLIP 计算过程图解
CLIP模型是OpenAI开发的一种多模态学习模型,它通过学习文本和图像之间的关联,实现了跨模态的语义理解。原创 2024-06-26 08:41:21 · 361 阅读 · 0 评论 -
深度学习论文: DINOv2: Learning Robust Visual Features without Supervision
提出一种自监督学习方法DINOv2,可在不需要微调的情况下,生成适用于各种图像分布和任务的通用视觉特征,使用精心筛选的大量图像数据进行预训练,并利用自动流程构建数据集以提高稳定性并加速训练。原创 2024-06-05 15:04:55 · 651 阅读 · 0 评论 -
深度学习论文: Emerging Properties in Self-Supervised Vision Transformers
本文探讨自监督学习是否为Vision Transformer(ViT)带来了相较于卷积网络的新特性。发现自监督ViT特征包含明确的图像语义分割信息,并展现出色的k-NN分类性能。同时,强调了动量编码器、多裁剪训练及小补丁在ViT中的重要性。基于这些发现,提出了DINO这一无标签自蒸馏方法,与ViT结合在ImageNet上实现了80.1%的top-1准确率。原创 2024-06-05 15:04:12 · 1036 阅读 · 0 评论 -
Mora: Enabling Generalist Video Generation via A Multi-Agent Framework
为弥补Sora不开源的缺陷,本文提出多代理框架Mora,整合先进视觉AI代理,复制Sora的全能视频生成能力。Mora能利用多视觉代理,成功模仿Sora在各种任务中的视频生成能力。原创 2024-03-22 16:03:16 · 1202 阅读 · 0 评论 -
SAM-Lightening: Lightweight Segment Anything Model with Dilated Flash Attention
通过将自注意力操作符蒸馏成具有动态层次蒸馏的Dilated Flash Attention,SAM-Lightening在图像上完成推理平均每张仅需7ms,实现了比SAM-ViT-H快30.1倍的速度提升。原创 2024-03-18 11:41:56 · 1008 阅读 · 0 评论 -
Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models
Sora 是一项重大突破,类似于 ChatGPT 在 NLP 领域的影响。Sora 是第一个能够根据人类指令生成长达一分钟视频的模型,同时保持较高的视觉质量和引人注目的视觉连贯性,从第一帧到最后一帧都具有渐进感和视觉连贯性。原创 2024-03-14 14:08:37 · 774 阅读 · 0 评论 -
EdgeSAM: Prompt-In-the-Loop Distillation for On-Device Deployment of SAM
作者在对各种蒸馏策略进行深入剖析后,证实了task-agnostic的编码器蒸馏难以完全吸收SAM所掌握的全部知识。鉴于此,EdgeSAM巧妙地循环运用bbox与point提示词,并同步对提示词编码器和Mak解码器进行蒸馏,以确保蒸馏模型能够精准地掌握提示词与Mask之间错综复杂的关联。EdgeSAM是首个能在iPhone 14上以超过30 FPS运行的SAM变体。在2080Ti上,相比原生SAM,EdgeSAM推理速度快40倍;原创 2024-03-13 16:25:16 · 619 阅读 · 0 评论 -
RepViT-SAM: Towards Real-Time Segmenting Anything
RepViT-SAM延续了MobileSAM的处理方式,引入RepViT-M2.3作为图像编码器提取图像特征,以及选用了SAM-ViT-H作为老师模型进行蒸馏。原创 2024-03-13 16:23:43 · 402 阅读 · 0 评论 -
EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment Anything(EfficientSAM)
SAM 是一款具备显著实质意义的 Transformer 模型,它在庞大的 SA-1B 数据集上接受了深度训练,因此在零样本迁移与多功能性方面展现出了卓越的性能。尽管如此,由于其高昂的计算需求,SAM 的应用范围受到了一定的限制。SAMI 创新地采纳了 SAM 编码器 ViT-H 来生成特征嵌入,并通过训练轻量级编码器构建掩码图像模型。这一策略巧妙地绕过了传统的从图像补丁中重建特征的路径,转而直接从 SAM 的强大 ViT-H 中汲取特征。原创 2024-03-05 17:08:17 · 753 阅读 · 0 评论 -
Towards Generic Anomaly Detection and Understanding: Large-scale Visual-linguistic Model (GPT-4V)
最近,大型多模态模型(LMM)迅猛发展。其中,OpenAI最近推出的GPT-4V (ision)表现最为出色,具有强大的多模态感知能力。它在场景理解、图片生成等多个任务中都取得了良好的表现。这为通用异常检测的研究提供了新的范式和机会。为了评估GPT-4V在通用异常检测中的性能,来自华中科技大学、密歇根大学和多伦多大学的研究者联合进行了一项研究。他们在涉及4个数据模态和9个异常检测任务的15个异常检测数据集上对GPT-4V进行了全面的测试。原创 2023-11-13 13:59:54 · 111 阅读 · 0 评论 -
Intel Devkit Call for Paper Challenge - Advanced Award
原创 2023-11-13 11:00:36 · 104 阅读 · 0 评论 -
基于深度学习的AI生成式人脸图像鉴别
AIGC(AI内容生成)技术的快速发展确实为创作者提供了高效生产力工具,但同时也引发了一些问题和挑战。这些技术可以生成以假乱真的图像、视频换脸等,给不法分子提供了滥用的机会。其中,一些不法分子可能利用AIGC技术制造虚假新闻、违反版权、绕过活体身份验证、散布谣言和诽谤他人、进行敲诈勒索等非法活动,以谋取不当利益。这些行为给社会造成了严重的负面影响,破坏了信息的真实性和可信度。因此,我们需要认识到AIGC技术的潜在风险,并采取相应的措施来应对。原创 2023-08-30 09:24:12 · 1751 阅读 · 9 评论 -
深度学习论文: Learning Transferable Visual Models From Natural Language Supervision
CLIP(对比性语言-图像预训练)是一个在各种(图像,文本)对上进行训练的神经网络。它可以通过自然语言指令,在给定图像的情况下预测最相关的文本片段,而不是直接为任务进行优化,类似于GPT-2和GPT-3的零样本能力。发现CLIP在ImageNet的“零样本”上与原始的ResNet50的性能相匹配,而且没有使用任何原始的128万个标记示例,克服了计算机视觉中的几个重要挑战。原创 2023-08-21 10:58:17 · 281 阅读 · 0 评论 -
Personalize Segment Anything Model with One Shot(PerSAM)
PerSAM作为一种无需训练的Segment Anything Model的个性化方法,仅使用一次性数据,即用户提供的图像和粗略的掩码来高效地定制SAM。具体而言,PerSAM首先利用SAM的图像编码器和给定的掩码来编码参考图像中目标对象的嵌入。然后,PerSAM计算目标对象与新测试图像上所有像素之间的特征相似性。在此基础上,PerSAM选择两个点作为正负对,将其编码为提示标记,并作为SAM的位置先验。在处理测试图像的SAM解码器中,我们引入三种技术,以充分发挥其个性化潜力,而无需参数调整。。原创 2023-07-17 11:33:55 · 321 阅读 · 0 评论 -
Faster Segment Anything: Towards Lightweight SAM for Mobile Applications
Faster SAM的目标是通过用轻量级图像编码器取代笨重的图像编码器,使得SAM适应移动设备。然而,按照原始SAM论文中的方式训练这样一个新的SAM会导致不令人满意的性能,尤其是在训练数据有限的情况下。我们发现,这主要是由于图像编码器和掩膜解码器的耦合优化所导致的。因此,为了解决这个问题,我们提出了一种名为解耦蒸馏的方法。具体而言,我们将原始SAM中的图像编码器ViT-H的知识蒸馏到一个轻量级图像编码器中,这个编码器可以自动与原始SAM中的掩膜解码器兼容。原创 2023-06-28 10:29:11 · 369 阅读 · 0 评论 -
Segment Anything Model(SAM)
SAM,即Segment Anything,它借助了NLP任务中的Prompt思路,通过给图像分割任务提供一下Prompt提示来完成任意目标的快速分割。提示可以是前景/背景点集、粗略的框或遮罩、任意形式的文本或者任何指示图像中需要进行分割的信息。该任务的输入是原始的图像和一些提示语,输出是图片中不同目标的掩码信息。原创 2023-06-25 08:34:56 · 7018 阅读 · 1 评论 -
Fast Segment Anything Model(FastSAM)
Segment Anything Model(SAM)在计算机视觉任务中很有用,但它的Transformer架构在高分辨率输入下计算成本很高,限制了它在工业场景中的应用。我们提出了一种速度更快的替代方法,性能与SAM相当。通过将任务重新定义为分段生成和提示,我们发现一个常规的CNN检测器加上实例分割分支可以完成任务。我们只使用SAM作者发布的SA-1B数据集的1/50来训练现有的实例分割方法。使用我们的方法,我们在50倍运行速度下实现了与SAM相当的性能。原创 2023-06-26 14:37:17 · 2750 阅读 · 1 评论