自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 Pic2Word: Mapping Pictures to Words for Zero-shot Composed Image Retrieval

组合图像检索 (CIR) 旨在使用图像和文本组成的查询来检索图像。CIR的核心是学习如何从图像和文本中组合信息。现有解决方案存在两个主要问题:一是需要大量的标记数据,通常以三元组形式出现,用于训练检索模型;二是使用标记数据训练的模型可能仅适用于特定用例,无法泛化到不同的CIR任务。为了应对这些挑战,本文提出了组合图像检索 (ZS-CIR)。在 ZS-CIR 中,我们的目标是构建一个执行不同 CIR 任务的单个 CIR 模型,例如。

2024-04-05 19:38:31 841 1

原创 Zero-shot Composed Text-Image Retrieval

在本文中,我们考虑了组合图像检索 (CIR) 的问题,它旨在训练一个模型,该模型可以融合多模态信息,例如文本和图像,以准确检索与查询匹配的图像,扩展搜索能力。最近的研究表明,视觉-语言模型在大规模数据集上联合训练取得了巨大进步,我们提出了组合图像检索(CIR)任务,旨在利用图像和文本信息来检索满足用户需求的目标图像,弥补了传统图像和文本检索的不足(手动构建文本-图像三元组数据集相比于收集文本-图像对通常非常昂贵,需要大量人力)。

2024-04-04 19:15:00 895 1

原创 Zero-Shot Learning with Attribute Selection

本文的主要内容是关于零样本学习中属性选择的研究。零样本学习是一种解决分类问题的方法,其中目标是构建针对一组目标类别的分类模型。然而,以往的研究中往往忽视了属性之间的差异性,将它们等同对待,导致模型受到“噪声”属性的影响而准确性有限。本文提出了一种属性选择的方法,通过联合优化信息量和可预测性的标准,选择对于后续的零样本学习模型最有价值的属性,从而提高模型的准确性。在本文中,我们考虑了ZSL、属性的关键构建块。以前的ZSL方法平等地对待所有属性,而不考虑属性的特性。

2024-04-03 11:00:50 688 1

原创 爬虫---数据爬取

【代码】爬虫---数据爬取。

2023-12-08 08:42:39 277

原创 EVA3D环境配置

2).创建新的虚拟环境,指定python版本3.8, 虚拟环境名字为eva3d。1)输入:conda activate eva3d, 进行激活环境。2)在终端输入以下代码: 后面跟镜像源,否则安装不成功。8. 输入yes,按enter 安装anaconda,10. 修改镜像源 输入vim ~/.condarc。12. 将镜像源写入condarc, 保存退出。进行验证: 创建成功!3)输入y,进行创建。

2023-10-22 15:59:29 88 1

原创 tqdm 进度条

【代码】rqdm 进度条。

2023-10-21 15:48:42 60 1

原创 tqdm 进度条

【代码】tqdm 进度条。

2023-10-21 14:47:00 45 1

原创 tqdm的使用

【代码】tqdm的使用。

2023-10-20 14:59:05 116 1

原创 循环神经网络

表示每一个时刻的输入​​: 表示每一个时刻的输出​​: 表示每一个隐层的输出中间的小圆圈代表隐藏层的一个unit(单元)所有单元的参数共享:表示激活函数3. 困惑度衡量一个语言模型的好坏可以用平均交叉熵p是语言模型的预测概率,是真实词在最好的情况下,模型总是完美地估计标签词元的概率为1。在这种情况下,模型的困惑度为1。在最坏的情况下,模型总是预测标签词元的概率为0。在这种情况下,困惑度是正无穷大。4. 总结对隐状态使用循环计算的神经网络称为循环神经网络(RNN)。

2023-10-18 10:37:32 122 1

原创 循环神经网络

1. 于直到时间步t的观测序列,其在时间步t+k的预测输出是“k步预测”。随着我们对预测时间k值的增加,会造成误差的快速累积和预测质量的极速下降。2. 文本预处理2.1 预处理步骤1. 将文本作为字符串加载到内存中。2. 将字符串拆分为词元(如单词和字符)。3. 建立一个词表,将拆分的词元映射到数字索引。4. 将文本转换为数字索引序列,方便模型操作2.2 读取数据集# 将数据集加载到文本行的列表中# 返回只有字母的数据1. 文本是序列数据的一种最常见的形式之一。

2023-10-16 19:17:25 67 1

原创 深度学习笔记

AlexNet由八层组成:五个卷积层、两个全连接隐藏层和一个全连接输出层。AlexNet使用ReLU作为其激活函数,因为ReLU激活函数的计算更简单,它不需要如sigmoid激活函数那般复杂的求幂运算。左图为LeNet, 右图为AlexNet用Sequential块将需要的层连接在一起。# 这里使用一个11*11的更大窗口来捕捉对象。# 减小卷积窗口,使用填充为2来使得输入与输出的高和宽一致,且增大输出通道数# 使用三个连续的卷积层和较小的卷积窗口。# 使用dropout层来减轻过拟合。

2023-10-12 21:11:46 93

原创 深度学习笔记

卷积神经网络(CNN)是一类特殊的神经网络,它可以包含多个卷积层。与卷积层类似,池化层运算符由一个固定形状的窗口组成,该窗口根据其步幅大小在输入的所有区域上滑动,为固定形状窗口遍历的每个位置计算一个输出。我们通常计算窗口中所有元素的最大值或平均值。最大池化层(maximum pooling)和平均汇聚层窗口形状为 2×2 的最大池化层。着色部分是第一个输出元素,以及用于计算这个输出的输入元素: max(0,1,3,4)=4如下代码实现了池化层的前向传播。# 池化窗口大小# 输出值形状。

2023-10-12 15:24:34 33

原创 深度学习笔记

每个块必须提供的基本功能:将输入数据作为其前向传播函数的参数。通过前向传播函数来生成输出。计算其输出关于输入的梯度,可通过其反向传播函数进行访问。存储和访问前向传播计算所需的参数。根据需要初始化模型参数。在下面的代码片段中, 编写一个块。它包含一个多层感知机,其具有256个隐藏单元的隐藏层和一个10维输出层。下面的MLP类继承了表示块的类。我们的实现只需要提供我们自己的构造函数和前向传播函数。# 两个全连接的层# 调用MLP的父类Module的构造函数来执行必要的初始化。

2023-10-11 21:19:08 83 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除