- 博客(59)
- 收藏
- 关注
原创 2025.8.17
3、增加一个可学习的Prompt Memory,维护一个 prompt_bank(形状 [M, dim]),记录常见错误,用 error_vec 检索最相关的 prompt 原型再做调整。1、train_score1>train_score2,反思机制没有体现出作用,可视化反思前后注意力的区别,发现问题对于图像注意力没有发生明显变化,需对反思模块进行修改。2、将单一信息驱动改为多源信息驱动:[error_vec, fused, q] → 提示 query。
2025-08-15 10:24:55
141
原创 2025.7.20
已完成反思模块和注意力模块的开发,同时优化了第二阶段训练样本中触发反思生成提示的条件,改用topk算法进行筛选,并对提示生成方法进行了性能调优。目前实验结果显示改进效果尚不明显。后续计划通过注意力可视化技术,进一步验证提示对优化文本-图片注意力分布的实际作用。
2025-07-19 17:16:40
114
原创 2025.7.12
1、本周主要是在实现前段时间想到的一个反思式的提示学习一个想法,初步完成了代码的一个编写,但是目前训练还没完全跑起来,代码还在修改优化中。
2025-07-12 23:29:12
224
原创 2025.04.20
2.学习进度:VQA-VS重建了VQA V2数据集,考虑了三种不同的快捷方式类别,以包括各种错误的关联。准备新增在vqavs上进行的对比实验,进一步验证模型去偏的有效性。但是其中答案数据集格式与VQA cp v2不一致,不包含score,需要根据划分的OOD-Test数据集重新制作对应答案数据集,编写工具并制作答案数据集。vqavs数据集包含9个OOD-Test来衡量模型对不同类型捷径的依赖性。1.项目进度:继续开发工作。
2025-04-20 08:40:45
234
原创 2024/11/17
2.科研方面设计了第二个消融实验的实验步骤,初步跑了一下结果,后续需要再进行调整。1.公安项目本周实现了两个web端的功能需求。
2024-11-17 09:28:17
141
原创 2024/11/10
3、收集调研耳机采取算法,之前使用excel处理耳机数据经常有问题看不到在哪,花了点时间用python实现了一下。1、跑完第一个消融实验。2、设计第二个消融实验。
2024-11-10 09:24:04
159
原创 2024/9/29
1、CF-VQA 《Counterfactual VQA: A Cause-Effect Look at Language Bias》提出因果推理框架。将语言偏差定义为问题对答案的直接因果影响,并通过从总因果影响中减去直接语言影响来减少语言偏差。由于目前的实验方法在一定程度上与cf-vqa有相似之处,实验尝试对代码进行微小改动,让方法具有更好的可解释性。
2024-09-29 09:17:27
210
原创 2024/9/15
css通过对问题图像进行部分遮盖减少偏见,增强对于稀有特征的捕获能力。将方法迁移到css并没有效果不理想,可能目前方法不适用该场景。2、将baseline从updn改为css实验效果。updn注重通过模态的融合来增强多模态特征的捕获。
2024-09-15 09:16:52
180
原创 2024.8.26
此处代码可能存在错误,由于模型结构原因,尝试将交替单模态训练改为单一样本各个模态依次进行训练,训练结果有所提高。2、取消第三模态共享头部更新时的权重修正,改为梯度裁剪。进行多次实验发现,共享头部放在偏见检测器之后的效果最好。根据已进行的实验,设想了两种模型准备进行再次实验。1、删去第一次反向传播时第三模态的梯度更新。一、对于第三模态加入对于模型性能的影响。(1)第三次反向传播会再进行一次更新。(2)阻止模型频繁的学习训练样本。二、对于交替单模态训练方式。
2024-08-25 00:03:09
261
原创 2024.8.18
1、本周主要是在验证上周的一些想法,将视觉特征和语言特征进行融合,视为第三模态,和视觉模态以及语言模态一起进行训练,同时验证实验过程中产生的其他一些细微想法。2、实验结果表明,第三模态的加入会增加模型对于num类型问题回答的准确度,但同时会降低对于other类型问题回答的准确度,对于yes/no类型影响不大。
2024-08-18 09:27:40
152
原创 2024.8.11
1、和师兄交流修改模型结构,将偏见检测器与分类器看成一个共同的特征融合模块,作为共享头部,2、帮师兄跑了一下updn+css的视觉语言双模态+视觉模态+语言模态训练实验。对于模态的特征提取,分别设计了交替单模态训练和多模态同时训练进行比较。
2024-08-11 09:09:52
157
原创 2024.8.4
第一篇论文《交替单模态适应的多模态表征学习》计算机视觉领域,通过几个特征提取网络分别交替提取单模态特征进行训练,使用一个共享头部捕获跨模态的交互信息,使用了权重修正防止情态遗忘。第二篇论文在检测偏见阶段之前,可以先采用交替提取单模态特征的进行训练以减少模态偏见,然后再次检测偏见模态,增强检查结果准确性。第二篇论文设计了一个模态的偏见检测器去检测偏见,然后通过加强偏见模态特征的方式减少偏见。(3)取消分类器,将整个分类器当成共享头部。(1)将共享头部设置在偏见检测器之后。(2)将共享头部设置在分类器之后。
2024-08-03 17:42:32
366
1
原创 2023.5.19 第44周周报
实验一:增加问题、答案(文本)潜空间联合前的归一化,之前模型特征融合的问题向量为word_embed,尝试将它改为经过GRU之后的question_embed.实验三:由于模型经过中间网络层生成的问题,答案,图片,答案不参与后续答案的预测,尝试减小输入答案的维度。本实验直接将answer的维度由1024->2410之后再与问题,图像进行特征联合。经由以上实验,无论是减少文本维度还是答案维度,模型效果都会变差。修改维度变换方法,并同时修改问题,答案维度从1024->32。实验二:基于实验一设计V6模型。
2024-05-19 09:40:15
251
原创 2023.5.12 第43周周报
看到有论文说应该让图像和文本的潜在嵌入具有相似和合理的数值范围【-2,2】尝试将U-Vit中的层前归一化改为层后归一化并不能解决问题。调试发现模型的文本图像的潜在嵌入虽然符合,但相差较大。学习时间:2023.5.5-2023.5.12。尝试对文本(问题,答案)进行正则化。在将文本和图像进行联合表示之前。但是训练loss会为NAN。
2024-05-12 09:23:53
254
原创 2023.04.28 第42周周报
增加token_embedding,eval_score最高分增加了1分。尝试了一下先在VQA v2.0上训练达到最高分,然后在VQA-cp 上训练。学习时间:2023.4.21-2023.4.28。2.由于VQA-CP是VQA的一个扩展数据集。
2024-04-28 09:10:45
206
原创 2023.04.21 第41周周报
本实验中每一个问题答案以及图像不是通过文本图像对:{文本,图像}的编码形式,而是通过image_id,question_id匹配,一个图像对对应多个问题,一个问题对应多个图像。如果进行拼接,每张图像会包含2个question_type,当然,文章中也尝试过两个文本的融合,这样只有一个question_type。本文介绍了一种用于视觉语言表示学习的联合数据增强技术,通过插入图像和连接文本来生成具有语义关系的新图像-文本对。文中实验结果显示编码前进行效果最佳。将两个图像文本对,图像进行插值,文本进行拼接。
2024-04-21 10:02:27
613
原创 2023.04.14 第40周周报
结果:目前实验进行到epoch7,eval_score=55.07未出现过拟合现象。结果:目前实验进行到epoch7,eval_score=55.11未出现过拟合现象。1.实验结果的train_score>>eval_score,发生了过拟合。结果:epoch10 eval_score=53.6发生过拟合。结果:epoch10 eval_score=54.6发生过拟合。结果:epoch11 eval_score=52发生过拟合。结果:目前实验进行到epoch6,出现过拟合现象。增大l2_lambda。
2024-04-14 09:45:24
292
原创 2023.04.07 第三十九周周报
结论:增加正则项,减少多头注意力头数,只有batch_size增大,实验三不如实验一,batch_size 过大。结论:实验四和实验六证明batch_size = 2 时实验效果不佳,不可取。1.实验结果的train_score>>eval_score,发生了过拟合。结果:epoch10 eval_score=38 分数增长缓慢。结果:epoch16 eval_score=55 分数增长缓慢。结果:epoch8 eval_score=38 分数增长缓慢。学习时间:2023.4.1-2023.4.7。
2024-04-07 10:47:36
339
原创 2023.03.31 第三十八周周报
1.实验结果的train_score>>eval_score,发生了过拟合。学习时间:2023.3.25-2023.3.31。(2)调整图像特征和文本特征维度,简化网络结构。2.分别进行一下实验应对过拟合现象。(3)减少batch_size大小。(1)增加L2正则化。
2024-03-31 23:29:59
204
原创 2023.03.24 第三十七周周报
2、本周有修改了两版模型结构,完成了其中一版的代码,正在测试中,目前模型的单个epoch训练所需时间为1h,train_score:80。eval代码刚刚写完,等待测试。学习时间:2023.3.18-2023.3.24。1、写了论文的Introduce部分。
2024-03-24 10:08:12
263
原创 2023.03.17 第三十六周周报
2、由于模型训练的结果分数不高,给模型加了一个无分类引导器模块,无分类引导器模块可以提高模型是生成的图片以及文本的质量,希望通过提高生成图片和文本的质量提高最终回答的准确率。学习时间:2023.3.10.4-2023.3.17。1、中英文写了论文的abstract部分。
2024-03-17 09:43:06
196
原创 2023.03.10 第三十五周周报。
2、将单个epoch的训练时间从22小时压缩到三个半小时。但是训练的效果大大减弱。正在考虑如何提高准确率。学习时间:2023.2.4-2023.3.10。1、调整模型的代码,改为多GPU可以并行训练。
2024-03-10 20:00:33
144
原创 2024.03.03第三十四周周报
1、解决了模型训练到第4个epoch是loss为NAN的问题,但是训练时间却从一个epoch10h->22h,目前正在尝试通过调整学习率等参数加快训练。学习时间:2023.2.26-2023.3.3。3、下一步写predict部分代码。2、完成evaluate部分代码。
2024-03-03 09:51:08
166
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人