多模态
文章平均质量分 50
WindyChanChan
本人才华有限,在线征集简介
展开
-
SAM模型
SAM与过去分割对比根据以下Demo,我们可以发现,通过在图像中指定要分割的内容提示,SAM可以实现各种分割任务,且无需额外的训练、做到零样本泛化,即SAM学会了辨别物体、具备图像理解力、对不熟悉的图像和物体能进行零样本概括,这一通用特性使得SAM模型在有关领域的推广应用成为可能。SAM模型结构focal loss为了解决类别不均衡的问题,其中系数为0就是标准的分类loss数据引擎SAM存在的问题原创 2024-03-09 20:32:49 · 433 阅读 · 0 评论 -
Glip模型
Yolos完全使用Transformer做目标检测Detr先使用CNN提取特征然后再使用transformerDetr和Yolos共同的缺点:需要事先知道所有的类别GlipZero-shot, 目标检测的类别可以不在训练类别中目标框进行视觉编码,然后和文本进行匹配文本和视觉特征是通过Clip模型提取的,所以视觉向量和文本向量是在一个空间Glip模型的优点Glip图像和文本融合Glip损失函数Glip训练数据原创 2024-03-09 21:16:05 · 471 阅读 · 0 评论 -
多模态入门
VIT处理图像CNN VS Transformer多模态BLIP模型网络结构视觉编码器: 就是 ViT 的架构。将输入图像分割成一个个的 Patch 并将它们编码为一系列 Image Embedding,并使用额外的 [CLS] token 来表示全局的图像特征。视觉编码器不采用之前的基于目标检测器的形式,因为 ViLT 和 SimVLM 等工作已经证明了 ViT 计算更加友好。作用提取图像特征。文本编码器:就是 BERT 的架构,其中 [CLS] token 附加到文本输入的开头以总结句原创 2024-03-06 19:08:11 · 368 阅读 · 0 评论