深度学习多模态
文章平均质量分 82
qq_41627642
这个作者很懒,什么都没留下…
展开
-
深度学习之边缘检测算法论文解读(EDTER: Edge Detection with Transformer)
无原创 2023-01-17 11:07:35 · 4972 阅读 · 0 评论 -
Transformer模型中应用的各类位置编码
六种位置编码的代码实现及性能实验1、位置编码的意义对于序列数据,目前存在三种主流的建模方式:卷积操作、循环操作和自注意力。其中,卷积和循环操作都具有局部性,即只作用目标元素的若干邻居上,而自注意力则是一种全局操作。具有局部性的操作,可以天然地注意到了元素间的相对位置;而注意力机制则是位置不敏感的·,即使调换序列中两个元素的位置对编码后的结果也不会产生影响。因此,有必要将元素对应的位置信息添加到表示中,或者在计算注意力得分时考虑两个元素之间的相对位置。这些方法统称为位置编码,可以分为绝对位置.原创 2022-04-19 15:36:24 · 6670 阅读 · 0 评论 -
基于Transform的目标检测(DETR模型)之环境搭建测试与模型解析
参考博文源码解析目标检测的跨界之星DETR(一)、概述与模型推断源码解析目标检测的跨界之星DETR(二)、模型训练过程与数据处理源码解析目标检测的跨界之星DETR(三)、Backbone与位置编码init_distributed_mode()方法是与分布式训练相关的设置,在该方法里,是通过环境变量来判断是否使用分布式训练,如果是,那么就设置相关参数,具体可参考util/misc.py文件中的源码,这里不作解析。 #分布式训练相关的设置 utils.init_distrib...原创 2022-04-22 16:05:51 · 4395 阅读 · 0 评论 -
语义分割大模型SAM论文阅读
我们介绍了分割一切(SA)项目:一个新的图像分割任务,模型和数据集。在数据收集循环中使用我们的高效模型,我们建立了迄今为止(到目前为止)最大的分割数据集,在1100万张许可和尊重隐私的图像上拥有超过10亿个掩模。该模型被设计和训练为提示,因此它可以将零拍摄转移到新的图像分布和任务。我们评估了它在许多任务中的能力,发现它的零射击性能令人印象深刻-通常与之前的完全监督结果相竞争甚至优于。原创 2023-07-07 13:57:53 · 1669 阅读 · 1 评论 -
MaskDINO环境搭建与模型测试
使用上面的命令而不使用eval-only将训练模型。例如,为了重现我们的实例分割结果,您可以从表中复制配置路径,将预训练的检查点下载到/path/to/checkpoint_file中,然后运行。要在视频上运行, replace --input files with --video-input video.mp4.要在网络摄像头上运行, replace --input files with --webcam.要将输出保存到目录(对于图像)或文件(对于网络摄像头或视频), use --output.原创 2023-11-29 09:48:22 · 618 阅读 · 0 评论 -
基于Transform的深度学习目标检测(DETR模型)
场景是语义的一种,图像场景分类在图像检索、视频检索、计算机视觉任务等领域内有非常重要的应用。场景分类指的就是从多幅图像中区分出具有相似场景特征的图像,并正确的对这些图像进行分类。遥感图像按照一定的分类特征进行分类。...原创 2022-04-18 18:48:50 · 3737 阅读 · 2 评论 -
Transform环境搭建与代码调试——Attention Is All Y ou Need
这对应于在第一个warmup_steps训练步骤中线性增加学习率,然后按步数的倒数平方根成比例地降低学习率。我们使用了warmup_steps = 4000。Transformer遵循这个整体架构,使用堆叠的自关注层和点方向层,完全连接编码器和解码器层,分别如图1的左半部分和右半部分所示。在训练过程中,我们使用值es =0.1的平滑标签。这损害了困惑,因为模型学的更加不确定,但提高了准确性和BLeU分数。Kullback-Leibler散度损失。结果保留主对角线及以下的数据。原创 2023-12-28 11:18:52 · 996 阅读 · 1 评论 -
图像压缩之NVJPEG
使用JPEG图像数据流作为输入;从数据流中检索图像的宽度和高度,并使用检索到的信息来管理 GPU 内存分配和解码。提供专用 API 用于从原始 JPEG 图像数据流中检索图像信息。nvJPEG 库支持以下内容:JPEG 选项:基线和渐进式 JPEG 解码/编码8 位像素霍夫曼比特流解码多达 4 通道 JPEG 比特流8 位和 16 位量化表以下是 3 个颜色通道 Y、Cb、Cr(Y、U、V)的色度子采样:4:4:44:2:24:2:04:4:04:1:1。原创 2023-10-26 11:19:31 · 508 阅读 · 0 评论 -
CompressAI:深度学习与传统图像压缩
CompressAI 构建在 PyTorch 之上,并提供:(1)基于深度学习的数据压缩的自定义操作、层和模型(2)官方TensorFlow 压缩库的部分移植(3)用于学习图像压缩的预训练端到端压缩模型(4)用于将学习模型与经典图像/视频压缩编解码器进行比较的评估脚本CompressAI 旨在通过提供资源来研究、实施和评估基于机器学习的压缩编解码器,让更多的研究人员为学习的图像和视频压缩领域做出贡献。原创 2023-12-27 17:36:25 · 4878 阅读 · 1 评论 -
遥感图像多模态检索AMFMN(支持关键词、句子对图像的检索)论文阅读、环境搭建、模型测试、模型训练
遥感跨模态文本图像检索以其灵活的输入和高效的查询等优点受到了广泛的关注。然而,传统的方法忽略了遥感图像多尺度和目标冗余的特点,导致检索精度下降。为了解决遥感多模态检索任务中的多尺度稀缺性和目标冗余问题,提出了一种新的非对称多模态特征匹配网络(AMFMN)。该模型可适应多尺度特征输入,支持多源检索方法,并能动态过滤冗余特征。AMFMN采用多尺度视觉自注意(MVSA)模块提取RS图像的显著特征,并利用视觉特征指导文本表示。原创 2023-12-11 17:29:02 · 1657 阅读 · 3 评论 -
多模态图像检索BLIP模型(环境搭建、数据下载与模型测试)
【代码】BLIP环境搭建、数据下载与模型测试。原创 2023-12-11 15:45:16 · 2963 阅读 · 0 评论