- 博客(19)
- 收藏
- 关注
原创 9.23xxxx
Bi-Blip4CIR论文Candidate Set Re-ranking for Composed Image Retrieval用于合成图像检索的候选集重新排名CLIP4CirtrigcomposeAE
2024-09-23 20:24:42 176
原创 8.7 c++
当创建一个类时,您不需要重新编写新的数据成员和成员函数,只需指定新建的类继承了一个已有的类的成员即可。类是一个模板,它定义了一组属性(成员变量)和行为(成员函数)。定义一个类表示学生信息(姓名、年龄、成绩),并创建多个学生对象,输出学生信息。成员可以被类的成员函数和派生类的成员函数访问,但不能被类外部的代码直接访问。成员只能在定义它的类内访问,不能被派生类或类的外部代码访问。对象是类的实例,具有类定义的属性和行为。指针是一个变量,它存储另一个变量的内存地址。成员可以被任何代码访问,包括类的外部代码。
2024-08-06 16:30:36 350
原创 8.6 c++
用于表示多维数据的数组,如二维数组可以表示一个矩阵。字符串是一种字符序列,用于表示文本数据。存储多个相同类型的变量。实现特定任务的代码块。
2024-08-05 17:34:56 271
原创 8.5 c++
先将 i 的当前值赋值给 a,然后再将 i 增加1。先将 i 增加1,然后将增加后的值赋值给 a。编写一个程序,使用 if-else 语句判断用户输入的年份是否为闰年。后置自增(i++):首先返回 i 当前的值,然后将 i 的值增加1。前置自增(++i):首先将 i 的值增加1,然后返回增加后的值。1、中英文混杂,代码应该全是英文,()," "条件语句(if, else if, else)语法结构:if (condition) { /std::cout: 输出到控制台。std::cin: 从控制台输入。
2024-08-04 17:18:02 756
原创 初步学习pytorch的网络搭建
所以神经网络只能不停修改权重,比如y=wx+b,x是你给的,它只能改变w,b让最后的输出y尽可能接近你希望的y值,这样损失loss就越来越小。③算损失,loss=compute_loss(target,output) ##这里target就是参考标准值GT,需要自己准备,和之前传入的input一一对应。【1】 先算loss对于输入x的偏导,(当然网络好几层,这个x指的是每一层的输入,而不是最开始的输入input)1.先定义网络:写网络Net的Class,声明网络的实例net=Net(),
2024-03-09 21:57:01 423
原创 BLIP学习笔记
但是不允许 Queries 看到 Text 的信息,只能看到自己的信息。大模型在大数据量下 大模型训练耗时所以冻结住 文本和图像编码器冻结住不更新 但是不更新的话 gap太大了 所以引入小的transformer 作为桥梁 把图文gap连接 Q-Former参数少 第一阶段表征学习阶段 生成学习阶段 输入可学习的queries的一个embedding 和文本 作为查询器 和当前文本最相关的图像信息是什么 抹除不相关信息 提取视觉信息(与目标文本相关的)输入大模型LLM 下游任务。
2024-02-29 17:17:45 1151
原创 2.29。
在每一次迭代中,随机选择一个小批量的样本来计算损失函数的梯度,并用梯度来更新参数。这种随机性使得算法更具鲁棒性,能够避免陷入局部极小值,并且训练速度也会更快。预训练权重就是 将在大规模数据上训练好的权重初始化,再训练自己的数据,效果会比随机初始化好。softmax归一化 0~1 在V上的权重。卷积核的个数=输出的通道数 减少通道数。BN原理 一批数据的特征图 均值为零。自主 先验知识的介入下关注到 权重。随着网络加深,准确率不下降。2、看图表 相关文献改进。读论文步骤(李沐老师)达到最优 继续加深网络。
2024-02-29 16:00:07 211
原创 2.27 BLIP与InstructBLIP
这样一来,Q-Former 就可以有效地利用冻结的预训练图像模型和语言模型。大模型在大数据量下 大模型训练耗时所以冻结住 文本和图像编码器冻结住不更新 但是不更新的话 gap太大了 所以引入小的transformer 作为桥梁 把图文gap连接 Q-Former参数少 第一阶段表征学习阶段 生成学习阶段 输入可学习的queries的一个embedding 和文本 作为查询器 和当前文本最相关的图像信息是什么 抹除不相关信息 提取视觉信息(与目标文本相关的)输入大模型LLM 下游任务。
2024-02-27 21:08:28 955
原创 retrieval
visual_encoder.pos_embed的项(位置嵌入)和模型中的visual_encoder进行插值处理。使用预训练的模型来计算图像和文本之间的相似度,并将这些相似度值存储在矩阵 score_matrix_i2t 中,用于图像和文本的匹配或检索任务。接下来为每个唯一的图像ID创建一个新的索引,并将这个索引存储在一个名为self.img_ids的字典中。这意味着图像ID为1的图像与文本ID为0和1的注释相关联。重新赋值,这是为了用新的、可能已经调整过大小的位置嵌入替换原来的嵌入。
2023-11-24 18:58:36 109 3
原创 【文献笔记】ALBEF
一个Vision-and-Language Pre-training (VLP)的改进框架,是一种大规模视觉和语言表征学习的方法,大多数是基于Transformer的多模态编码器去联合视觉与文本模型,因为它们是不对齐的,所以交互具有挑战性。在本文中,我们引入对比损失,通过跨模态注意力对齐融合前的图像和文本表示( ALBEF )。为了改进从含噪网络数据中的学习,我们提出了动量蒸馏(Momentum distillation),这是一种从动量模型产生的伪目标中学习的自训练方法。
2023-10-17 21:13:18 518
原创 【文献翻译】UR-FUNNY: A Multimodal Language Dataset for Understanding Humor
幽默是人们在社会交往中经常表现出来的一种独特的、富有创造性的交际行为。它是以多模态的方式产生的,通过使用单词(文本),手势(视觉)和韵律线索(声学)。从这三种模态来理解幽默,属于多模态语言的范畴;自然语言处理的一个最新研究趋势是将自然语言建模为面对面交流中发生的事情。尽管幽默检测是NLP中一个已经确立的研究领域,但在多模态环境下,幽默检测仍未得到充分的研究。本文提出了一个名为UR - FUNNY的多元多模态数据集,为理解幽默表达中使用的多模态语言打开了一扇大门。
2023-10-15 19:55:06 718 1
原创 【文献翻译】VX2TEXT: End-to-End Learning of Video-Based Text Generation From Multimodal Inputs
我们提出了VX2TEXT,一个从视频加文本、语音或音频组成的多模态输入中生成文本的框架。为了利用已被证明在建模语言方面有效的Transformer网络,每个模态首先通过一个可学习的标记器转换为一组语言嵌入。这使得我们的方法可以在语言空间中进行多模态融合,从而不需要专门的跨模态融合模块。为了解决连续输入(例如,视频或音频)上标记化的不可微性问题,我们采用了一种能够进行端到端训练的松弛方案。此外,与仅有编码器的先验模型不同,我们的网络包含一个自回归解码器,用于从由语言编码器融合的多模态嵌入中生成开放文本。
2023-10-15 16:41:58 145 1
原创 10.12 学习笔记
等等,这些任务基本上只会用到单一模态的文本数据。我们通过这种方式构建模型,然后将模型应用到相应的任务或应用中。图像处理也是类似的。事实上,在近几年之前,文本处理和图像处理这两个领域的发展基本上是独立的,它们的关联度并不高,尤其是在Transformer模型出现之前。
2023-10-13 10:26:53 339
原创 大创初步内容
数学建模1、利用SEIR模型对新冠病毒预测2、基于2019-nCoV的SEIR模型的建立与改进3、基于SEIR模型的数值预测4、2020年C题认证杯SEIR模型参数拟合知网论文1、基于SEIR模型对武汉市疫情发展情况的模拟及防控措施的评价2、新型冠状病毒肺炎传播特性分析与疫情发展趋势预测3、修正SEIR传染病动力学模型应用于湖北省2019冠状病毒病(COVID-19)疫情预测和评估4、若干类传染病动力系统分析与控制问题研究知识点1、李雅普诺夫指数lyapunov指数,混沌系统的基本
2020-12-16 15:55:29 1010
原创 数值分析作业
实验五最小二乘拟合预测人口数量x=[ 1949 1950 1952 1953 1955 1956 1957 1958 1959 1960 1961 1962 1963 1965 1966 1967 1968 1970 1971 1972 1974 1975 1976 1977 1979 1980 1982 1983 1984 ];y=[ 5.4167 5.5196 5.7428 5.8796 6.1465 6.2828 6.4653 6.5994 6.7209 6.6207 6.5859 6.72.
2020-08-04 09:12:02 439
原创 数值分析作业
实验一圆周率π值的计算方案一:S0=sin(pi/2)^2;P0=2*sqrt(S0);S=S0/2*(1+sqrt(1-S0));P=4*sqrt(S);eps=1.0e-14; % 设置精度n=2;format longwhile(norm(S0-S)>=eps && norm(P0-P)>=eps) S0=S; S=S0/(2*(1+sqrt(1-S0))); P=2^(n+1)*sqrt(S); n=n+1; ..
2020-08-04 09:05:33 236
原创 移动组暑期培训妹子图
需要掌握1、布局:recyclerview2、网络请求,获取数据:HttpURLConnection、OkHttp(涉及到数据流、AsyncTask异步任务)3、解析数据:JSON、GSON4、图片加载库:glideHttpURLConnection创建一个URL对象: URL url = new URL("");调用URL对象的openConnection( )来获取HttpU...
2019-07-16 15:27:51 143
原创 学习RecyclerView
稍做记录说明:这是用来给自己回忆的,估计你们也看不太懂有时间我再整理吧2018.7.1528.May 明日之星——RecyclerView学习内容1、回收与复用View2、setLayoutManager显示3、ItemDecoration item如何分隔4、ItemAnimator Item增加与删除动画效果SimpleAdapter extends RecyclerVi...
2019-07-15 15:21:07 110
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人