s_yangyang-CSDN博客

原创 Simple Semantic-Aided Few-Shot Learning

大型美国阔嘴鸟，胸部和腹部呈铁锈红色。小型的旧世界鸣鸟，胸部呈红色。

2024-10-17 08:47:12 293

原创 Pic2Word: Mapping Pictures to Words for Zero-shot Composed Image Retrieval

组合图像检索 (CIR) 旨在使用图像和文本组成的查询来检索图像。CIR的核心是学习如何从图像和文本中组合信息。现有解决方案存在两个主要问题：一是需要大量的标记数据，通常以三元组形式出现，用于训练检索模型；二是使用标记数据训练的模型可能仅适用于特定用例，无法泛化到不同的CIR任务。为了应对这些挑战，本文提出了组合图像检索 (ZS-CIR)。在 ZS-CIR 中，我们的目标是构建一个执行不同 CIR 任务的单个 CIR 模型，例如。

2024-04-05 19:38:31 1141 1

原创 Zero-shot Composed Text-Image Retrieval

在本文中，我们考虑了组合图像检索 (CIR) 的问题，它旨在训练一个模型，该模型可以融合多模态信息，例如文本和图像，以准确检索与查询匹配的图像，扩展搜索能力。最近的研究表明，视觉-语言模型在大规模数据集上联合训练取得了巨大进步，我们提出了组合图像检索（CIR）任务，旨在利用图像和文本信息来检索满足用户需求的目标图像，弥补了传统图像和文本检索的不足（手动构建文本-图像三元组数据集相比于收集文本-图像对通常非常昂贵，需要大量人力）。

2024-04-04 19:15:00 1324 1

原创 Zero-Shot Learning with Attribute Selection

本文的主要内容是关于零样本学习中属性选择的研究。零样本学习是一种解决分类问题的方法，其中目标是构建针对一组目标类别的分类模型。然而，以往的研究中往往忽视了属性之间的差异性，将它们等同对待，导致模型受到“噪声”属性的影响而准确性有限。本文提出了一种属性选择的方法，通过联合优化信息量和可预测性的标准，选择对于后续的零样本学习模型最有价值的属性，从而提高模型的准确性。在本文中，我们考虑了ZSL、属性的关键构建块。以前的ZSL方法平等地对待所有属性，而不考虑属性的特性。

2024-04-03 11:00:50 734 1

原创爬虫---数据爬取

【代码】爬虫---数据爬取。

2023-12-08 08:42:39 321

原创 EVA3D环境配置

2）.创建新的虚拟环境，指定python版本3.8，虚拟环境名字为eva3d。1）输入：conda activate eva3d, 进行激活环境。2）在终端输入以下代码: 后面跟镜像源，否则安装不成功。8. 输入yes，按enter 安装anaconda，10. 修改镜像源输入vim ~/.condarc。12. 将镜像源写入condarc, 保存退出。进行验证：创建成功！3）输入y，进行创建。

2023-10-22 15:59:29 114 1

原创 tqdm 进度条

【代码】rqdm 进度条。

2023-10-21 15:48:42 95 1

原创 tqdm 进度条

【代码】tqdm 进度条。

2023-10-21 14:47:00 85 1

原创 tqdm的使用

【代码】tqdm的使用。

2023-10-20 14:59:05 211 1

原创循环神经网络

表示每一个时刻的输入: 表示每一个时刻的输出: 表示每一个隐层的输出中间的小圆圈代表隐藏层的一个unit(单元)所有单元的参数共享:表示激活函数3. 困惑度衡量一个语言模型的好坏可以用平均交叉熵p是语言模型的预测概率，是真实词在最好的情况下，模型总是完美地估计标签词元的概率为1。在这种情况下，模型的困惑度为1。在最坏的情况下，模型总是预测标签词元的概率为0。在这种情况下，困惑度是正无穷大。4. 总结对隐状态使用循环计算的神经网络称为循环神经网络（RNN）。

2023-10-18 10:37:32 171 1

原创循环神经网络

1. 于直到时间步t的观测序列，其在时间步t+k的预测输出是“k步预测”。随着我们对预测时间k值的增加，会造成误差的快速累积和预测质量的极速下降。2. 文本预处理2.1 预处理步骤1. 将文本作为字符串加载到内存中。2. 将字符串拆分为词元（如单词和字符）。3. 建立一个词表，将拆分的词元映射到数字索引。4. 将文本转换为数字索引序列，方便模型操作2.2 读取数据集# 将数据集加载到文本行的列表中# 返回只有字母的数据1. 文本是序列数据的一种最常见的形式之一。

2023-10-16 19:17:25 102 1

原创深度学习笔记

AlexNet由八层组成：五个卷积层、两个全连接隐藏层和一个全连接输出层。AlexNet使用ReLU作为其激活函数，因为ReLU激活函数的计算更简单，它不需要如sigmoid激活函数那般复杂的求幂运算。左图为LeNet, 右图为AlexNet用Sequential块将需要的层连接在一起。# 这里使用一个11*11的更大窗口来捕捉对象。# 减小卷积窗口，使用填充为2来使得输入与输出的高和宽一致，且增大输出通道数# 使用三个连续的卷积层和较小的卷积窗口。# 使用dropout层来减轻过拟合。

2023-10-12 21:11:46 126

原创深度学习笔记

卷积神经网络（CNN）是一类特殊的神经网络，它可以包含多个卷积层。与卷积层类似，池化层运算符由一个固定形状的窗口组成，该窗口根据其步幅大小在输入的所有区域上滑动，为固定形状窗口遍历的每个位置计算一个输出。我们通常计算窗口中所有元素的最大值或平均值。最大池化层（maximum pooling）和平均汇聚层窗口形状为 2×2 的最大池化层。着色部分是第一个输出元素，以及用于计算这个输出的输入元素: max(0,1,3,4)=4如下代码实现了池化层的前向传播。# 池化窗口大小# 输出值形状。

2023-10-12 15:24:34 52

原创深度学习笔记

每个块必须提供的基本功能：将输入数据作为其前向传播函数的参数。通过前向传播函数来生成输出。计算其输出关于输入的梯度，可通过其反向传播函数进行访问。存储和访问前向传播计算所需的参数。根据需要初始化模型参数。在下面的代码片段中, 编写一个块。它包含一个多层感知机，其具有256个隐藏单元的隐藏层和一个10维输出层。下面的MLP类继承了表示块的类。我们的实现只需要提供我们自己的构造函数和前向传播函数。# 两个全连接的层# 调用MLP的父类Module的构造函数来执行必要的初始化。

2023-10-11 21:19:08 125 1

weixin_43460403的博客

原创 Simple Semantic-Aided Few-Shot Learning

原创 Pic2Word: Mapping Pictures to Words for Zero-shot Composed Image Retrieval

原创 Zero-shot Composed Text-Image Retrieval

原创 Zero-Shot Learning with Attribute Selection

原创爬虫---数据爬取

原创 EVA3D环境配置

原创 tqdm 进度条

原创 tqdm 进度条

原创 tqdm的使用

原创循环神经网络

原创循环神经网络

原创深度学习笔记

原创深度学习笔记

原创深度学习笔记

空空如也

空空如也