vqa
文章平均质量分 63
hahahhahahahahah1
这个作者很懒,什么都没留下…
展开
-
学习笔记:对比学习
B站学习视频原创 2024-01-03 17:00:05 · 533 阅读 · 0 评论 -
CLIP学习
DALL-E学习博客CLIP的B站学习视频DALL-E-2学习博客原创 2024-01-03 10:29:04 · 451 阅读 · 0 评论 -
论文笔记:Bilinear Attention Networks
多模态学习中的注意力网络提供了一种选择性地利用给定视觉信息的有效方法。然而,学习每一对多模态输入通道的注意力分布的计算成本是非常昂贵的。为了解决这个问题,共同注意力为每个模态建立了两个独立的注意分布,忽略了多模态输入之间的相互作用。在本文中,我们提出了双线性注意力网络(BAN),它可以找到双线性注意力分布来无缝地利用给定地视觉语言信息。BAN考虑两组输入通道之间的双线性交互,而低秩双线性池化提取每对通道地联合表示。此外,我们提出了一种多模态残差网络的变体,以有效地利用BAN的注意力图。原创 2023-12-18 15:11:26 · 1794 阅读 · 0 评论 -
bottom-up-attention-vqa-master 成功复现!!!
代码地址1、create_dictionary.py建立词典和使用预训练的glove向量(1)create_dictionary()遍历每个question文件取出所关注的question部分,qs遍历qs,对每个问题的文本内容进行分词,并将分词结果添加到字典中,True表示添加新词而非索引#创建词典#词典用于将文本数据中的单词映射到唯一的整数标识符def create_dictionary(dataroot): dictionary = Dictionary()原创 2023-12-16 18:21:07 · 1728 阅读 · 2 评论 -
一些结合实例的代码理解(学习笔记)
【代码】一些结合实例的代码理解(学习笔记)原创 2023-12-15 16:54:40 · 443 阅读 · 0 评论 -
循环神经网络
门的设计可自由选择哪些部分记忆,哪些部分不记忆,连乘消除梯度消失,Ws^(k-1)是导致可能梯度爆炸和梯度消失的主要原因。整个序列的损失函数即将所有时间步的算是函数相加求和。标准神经网络建模不适合带时间序列的任务场景。4、没有办法体现时序上的“前因后果”前后关联强,“前因后果”原创 2023-12-14 16:35:21 · 522 阅读 · 0 评论 -
Transfomer-学习笔记
我们认为,对于较大的dk值,点积的大小会变大,从而将softmax函数推入具有极小梯度的区域(训练就很慢了),为了抵消这个影响,我们将点乘积乘以。该处的mask用于比较“我喜欢你 P”和“S I Iove you . P”之间的关系,被翻译的句子和翻译的结果他们之间的关系。上图中,超过5的部分被截取掉,不足5的部分使用P进行填充,填充的P在注意力机制当中是没有意义的。上图中,1表示batchsize为1,5表示输入的5个单词,4表示每个单词用1*4的向量表示。将单组的QKV拆成多组的QKV。原创 2023-12-05 11:27:44 · 837 阅读 · 0 评论 -
Glove学习笔记
共现矩阵X为对称矩阵,共现次数和权重递减函数的乘积,从而达到距离越远的共现词对权重小,距离越近的共现词对权重大。我们用我们的见解,构建一个新的模型,Glove,全局向量的词表示,因为这个模型捕捉到全局预料的统计信息。窗口大小为2,表示中心词前后大小为2的区域的词语才与中心词有共现关系,窗口之外的词语就不能称之为共现。通过视频中的讲解主要了解共现矩阵及词向量损失函数推导过程及代码的使用!概率之间的比值更能捕捉词语之间的相关和不相关关系。LSA构建的是词语与文档的共现矩阵。原创 2023-11-30 15:47:14 · 510 阅读 · 0 评论 -
学习笔记:Pytorch 搭建自己的Faster-RCNN目标检测平台
Faster-RCNN可以采用多种的主干特征提取网络,常用的有VGG,Resnet,Xception等等。Faster-RCNN对输入进来的图片尺寸没有固定,但一般会把输入进来的图片短边固定成600.Resnet50expansion = 4 #最后一个卷积层输出通道数相对于输入通道数的倍数'''inplanes:输入通道数planes:卷积层输出的通道数stride:卷积的步长,默认为1downsample:是否对输入进行下采样'''#使用1*1卷积核,压缩通道数。原创 2023-11-30 15:08:07 · 1220 阅读 · 0 评论 -
论文笔记:Bottom-Up and Top-Down Attention for Image Captioningand Visual Question Answering
自顶向下和自底向上结合的注意力机制,使注意力能够在物体和其他显著图像区域的水平上进行计算。自底向上的机制(基于)提出图像区域,每个区域都有一个相关的特征向量,而自顶向下的机制确定特征权重。注意力机制上图是:左边:注意力模型在CNN特征上运行,这些特征对应于大小相等的图像区域的统一网格。右边:模型在物体和其他显著图像区域的水平上计算注意力。将非视觉或特定任务环境驱动的注意力机制称为“自顶向下”,将纯视觉前馈注意力机制称为“自底向上”。原创 2023-11-25 23:15:17 · 1123 阅读 · 0 评论 -
小土堆学习视频
正则化加快神经网络训练速度。特定网络结构:Transfomer层线性层Dropout层防止过拟合。原创 2023-11-23 20:58:01 · 956 阅读 · 0 评论