NCUZhangchen-CSDN博客

3、增加一个可学习的Prompt Memory，维护一个 prompt_bank（形状 [M, dim]），记录常见错误，用 error_vec 检索最相关的 prompt 原型再做调整。1、train_score1>train_score2,反思机制没有体现出作用，可视化反思前后注意力的区别，发现问题对于图像注意力没有发生明显变化，需对反思模块进行修改。2、将单一信息驱动改为多源信息驱动:[error_vec, fused, q] → 提示 query。

2025-08-15 10:24:55 185

原创 2025.8.10

2.论文投稿displays期刊。

2025-08-10 08:28:57 162

原创 2025.08.03

2.针对审稿人的改进意见对论文进行修改。1.完成Pg会议论文的回稿。

2025-08-03 08:37:19 445

原创 2025.07.27

论文评分结果出来，本周主要回复审稿人意见，期限一周。

2025-07-27 08:51:20 360

原创 2025.7.20

已完成反思模块和注意力模块的开发，同时优化了第二阶段训练样本中触发反思生成提示的条件，改用topk算法进行筛选，并对提示生成方法进行了性能调优。目前实验结果显示改进效果尚不明显。后续计划通过注意力可视化技术，进一步验证提示对优化文本-图片注意力分布的实际作用。

2025-07-19 17:16:40 138

原创 2025.7.12

1、本周主要是在实现前段时间想到的一个反思式的提示学习一个想法，初步完成了代码的一个编写，但是目前训练还没完全跑起来，代码还在修改优化中。

2025-07-12 23:29:12 247

原创 2025.6.29

1、本周主要阅读其他vqa去偏论文，对于提示学习有点想法，考虑做一个反思式的提示学习，在回答之后，根据结果触发反思提示。

2025-06-29 09:01:48 104

原创 2025.6.22

1、本周主要阅读其他vqa去偏论文，目前想从提示学习方面入手，具体想法有待完善。

2025-06-21 19:58:01 105

原创 2025.6.8

本周主要修改论文，已经上传系统提交，预计7.21号出结果。

2025-06-08 09:00:35 307

原创 2025.06.01

1.学习进度：讲论文发给师兄看，根据师兄意见修改论文。

2025-06-01 09:00:45 361

原创 2025.05.25

1.学习进度：论文内容修改完毕，还差VQAVS数据集上的实验没有做完。投稿会议PG,截止时间6月7号。

2025-05-25 08:57:46 128

原创 2025.04.27

1.学习进度：修改论文中，预计下周修改完毕。

2025-05-18 08:54:55 142

原创 2025.04.27

2.学习进度：论文被拒，仔细修改中，准备再投。1.项目进度：继续开发工作。

2025-04-27 08:48:14 142

原创 2025.04.20

2.学习进度：VQA-VS重建了VQA V2数据集，考虑了三种不同的快捷方式类别，以包括各种错误的关联。准备新增在vqavs上进行的对比实验，进一步验证模型去偏的有效性。但是其中答案数据集格式与VQA cp v2不一致，不包含score，需要根据划分的OOD-Test数据集重新制作对应答案数据集，编写工具并制作答案数据集。vqavs数据集包含9个OOD-Test来衡量模型对不同类型捷径的依赖性。1.项目进度：继续开发工作。

2025-04-20 08:40:45 308

原创 2024.12.22

2.学习进度：把论文赶完了，下周一下午或晚上投吧。1.项目进度：继续开发工作，

2024-12-22 09:03:10 131

原创 2024.12.8

1.项目进度：继续开发工作。2.学习进度：写开题报告。

2024-12-08 09:28:59 159

原创 2024/11/17

2.科研方面设计了第二个消融实验的实验步骤，初步跑了一下结果，后续需要再进行调整。1.公安项目本周实现了两个web端的功能需求。

2024-11-17 09:28:17 164

原创 2024/11/10

3、收集调研耳机采取算法，之前使用excel处理耳机数据经常有问题看不到在哪，花了点时间用python实现了一下。1、跑完第一个消融实验。2、设计第二个消融实验。

2024-11-10 09:24:04 189

原创 2024/10/27

1、使用CGD指标做实验。

2024-10-27 09:55:03 152

原创 2024/10/20

学习内容：1、写论文。

2024-10-20 09:18:49 447

原创 2024/10/13

1、阅读近年VQA相关论文，对近年研究方法进行分类总结。

2024-10-13 09:30:15 156

原创 2024/9/29

1、CF-VQA 《Counterfactual VQA: A Cause-Effect Look at Language Bias》提出因果推理框架。将语言偏差定义为问题对答案的直接因果影响,并通过从总因果影响中减去直接语言影响来减少语言偏差。由于目前的实验方法在一定程度上与cf-vqa有相似之处，实验尝试对代码进行微小改动，让方法具有更好的可解释性。

2024-09-29 09:17:27 237

原创 2024/9/15

css通过对问题图像进行部分遮盖减少偏见，增强对于稀有特征的捕获能力。将方法迁移到css并没有效果不理想，可能目前方法不适用该场景。2、将baseline从updn改为css实验效果。updn注重通过模态的融合来增强多模态特征的捕获。

2024-09-15 09:16:52 203

原创 2024.9.8

本周主要是先考虑了一下论文approach部分，还在修改考量中。

2024-09-08 09:22:48 160

原创 2024.9.1

这周修改完模型，实验结果还可以，准备想想怎么写论文。

2024-09-01 09:56:12 132

原创 2024.8.26

此处代码可能存在错误，由于模型结构原因，尝试将交替单模态训练改为单一样本各个模态依次进行训练，训练结果有所提高。2、取消第三模态共享头部更新时的权重修正，改为梯度裁剪。进行多次实验发现，共享头部放在偏见检测器之后的效果最好。根据已进行的实验，设想了两种模型准备进行再次实验。1、删去第一次反向传播时第三模态的梯度更新。一、对于第三模态加入对于模型性能的影响。（1）第三次反向传播会再进行一次更新。（2）阻止模型频繁的学习训练样本。二、对于交替单模态训练方式。

2024-08-25 00:03:09 301

原创 2024.8.18

1、本周主要是在验证上周的一些想法，将视觉特征和语言特征进行融合，视为第三模态,和视觉模态以及语言模态一起进行训练，同时验证实验过程中产生的其他一些细微想法。2、实验结果表明，第三模态的加入会增加模型对于num类型问题回答的准确度，但同时会降低对于other类型问题回答的准确度，对于yes/no类型影响不大。

2024-08-18 09:27:40 177

原创 2024.8.11

1、和师兄交流修改模型结构，将偏见检测器与分类器看成一个共同的特征融合模块，作为共享头部，2、帮师兄跑了一下updn+css的视觉语言双模态+视觉模态+语言模态训练实验。对于模态的特征提取，分别设计了交替单模态训练和多模态同时训练进行比较。

2024-08-11 09:09:52 181

原创 2024.8.4

第一篇论文《交替单模态适应的多模态表征学习》计算机视觉领域，通过几个特征提取网络分别交替提取单模态特征进行训练，使用一个共享头部捕获跨模态的交互信息，使用了权重修正防止情态遗忘。第二篇论文在检测偏见阶段之前，可以先采用交替提取单模态特征的进行训练以减少模态偏见，然后再次检测偏见模态，增强检查结果准确性。第二篇论文设计了一个模态的偏见检测器去检测偏见，然后通过加强偏见模态特征的方式减少偏见。(3)取消分类器，将整个分类器当成共享头部。(1)将共享头部设置在偏见检测器之后。(2)将共享头部设置在分类器之后。

2024-08-03 17:42:32 439 1

原创 2023.5.19 第44周周报

实验一：增加问题、答案（文本）潜空间联合前的归一化，之前模型特征融合的问题向量为word_embed，尝试将它改为经过GRU之后的question_embed.实验三：由于模型经过中间网络层生成的问题，答案，图片，答案不参与后续答案的预测，尝试减小输入答案的维度。本实验直接将answer的维度由1024->2410之后再与问题，图像进行特征联合。经由以上实验，无论是减少文本维度还是答案维度，模型效果都会变差。修改维度变换方法，并同时修改问题，答案维度从1024->32。实验二：基于实验一设计V6模型。

2024-05-19 09:40:15 279

原创 2023.5.12 第43周周报

看到有论文说应该让图像和文本的潜在嵌入具有相似和合理的数值范围【-2，2】尝试将U-Vit中的层前归一化改为层后归一化并不能解决问题。调试发现模型的文本图像的潜在嵌入虽然符合，但相差较大。学习时间：2023.5.5-2023.5.12。尝试对文本(问题，答案)进行正则化。在将文本和图像进行联合表示之前。但是训练loss会为NAN。

2024-05-12 09:23:53 282

原创 2023.04.28 第42周周报

增加token_embedding,eval_score最高分增加了1分。尝试了一下先在VQA v2.0上训练达到最高分，然后在VQA-cp 上训练。学习时间：2023.4.21-2023.4.28。2.由于VQA-CP是VQA的一个扩展数据集。

2024-04-28 09:10:45 243

原创 2023.04.21 第41周周报

本实验中每一个问题答案以及图像不是通过文本图像对：{文本，图像}的编码形式，而是通过image_id,question_id匹配，一个图像对对应多个问题，一个问题对应多个图像。如果进行拼接，每张图像会包含2个question_type，当然，文章中也尝试过两个文本的融合，这样只有一个question_type。本文介绍了一种用于视觉语言表示学习的联合数据增强技术，通过插入图像和连接文本来生成具有语义关系的新图像-文本对。文中实验结果显示编码前进行效果最佳。将两个图像文本对，图像进行插值，文本进行拼接。

2024-04-21 10:02:27 672

原创 2023.04.14 第40周周报

结果：目前实验进行到epoch7，eval_score=55.07未出现过拟合现象。结果：目前实验进行到epoch7，eval_score=55.11未出现过拟合现象。1.实验结果的train_score>>eval_score，发生了过拟合。结果：epoch10 eval_score=53.6发生过拟合。结果：epoch10 eval_score=54.6发生过拟合。结果：epoch11 eval_score=52发生过拟合。结果：目前实验进行到epoch6，出现过拟合现象。增大l2_lambda。

2024-04-14 09:45:24 346

原创 2023.04.07 第三十九周周报

结论：增加正则项，减少多头注意力头数，只有batch_size增大，实验三不如实验一，batch_size 过大。结论：实验四和实验六证明batch_size = 2 时实验效果不佳，不可取。1.实验结果的train_score>>eval_score，发生了过拟合。结果：epoch10 eval_score=38 分数增长缓慢。结果：epoch16 eval_score=55 分数增长缓慢。结果：epoch8 eval_score=38 分数增长缓慢。学习时间：2023.4.1-2023.4.7。

2024-04-07 10:47:36 380

空空如也

空空如也