自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 收藏
  • 关注

原创 2023.5.19 第44周周报

实验一:增加问题、答案(文本)潜空间联合前的归一化,之前模型特征融合的问题向量为word_embed,尝试将它改为经过GRU之后的question_embed.实验三:由于模型经过中间网络层生成的问题,答案,图片,答案不参与后续答案的预测,尝试减小输入答案的维度。本实验直接将answer的维度由1024->2410之后再与问题,图像进行特征联合。经由以上实验,无论是减少文本维度还是答案维度,模型效果都会变差。修改维度变换方法,并同时修改问题,答案维度从1024->32。实验二:基于实验一设计V6模型。

2024-05-19 09:40:15 193

原创 2023.5.12 第43周周报

看到有论文说应该让图像和文本的潜在嵌入具有相似和合理的数值范围【-2,2】尝试将U-Vit中的层前归一化改为层后归一化并不能解决问题。调试发现模型的文本图像的潜在嵌入虽然符合,但相差较大。学习时间:2023.5.5-2023.5.12。尝试对文本(问题,答案)进行正则化。在将文本和图像进行联合表示之前。但是训练loss会为NAN。

2024-05-12 09:23:53 195

原创 2023.04.28 第42周周报

增加token_embedding,eval_score最高分增加了1分。尝试了一下先在VQA v2.0上训练达到最高分,然后在VQA-cp 上训练。学习时间:2023.4.21-2023.4.28。2.由于VQA-CP是VQA的一个扩展数据集。

2024-04-28 09:10:45 153

原创 2023.04.21 第41周周报

本实验中每一个问题答案以及图像不是通过文本图像对:{文本,图像}的编码形式,而是通过image_id,question_id匹配,一个图像对对应多个问题,一个问题对应多个图像。如果进行拼接,每张图像会包含2个question_type,当然,文章中也尝试过两个文本的融合,这样只有一个question_type。本文介绍了一种用于视觉语言表示学习的联合数据增强技术,通过插入图像和连接文本来生成具有语义关系的新图像-文本对。文中实验结果显示编码前进行效果最佳。将两个图像文本对,图像进行插值,文本进行拼接。

2024-04-21 10:02:27 494

原创 2023.04.14 第40周周报

结果:目前实验进行到epoch7,eval_score=55.07未出现过拟合现象。结果:目前实验进行到epoch7,eval_score=55.11未出现过拟合现象。1.实验结果的train_score>>eval_score,发生了过拟合。结果:epoch10 eval_score=53.6发生过拟合。结果:epoch10 eval_score=54.6发生过拟合。结果:epoch11 eval_score=52发生过拟合。结果:目前实验进行到epoch6,出现过拟合现象。增大l2_lambda。

2024-04-14 09:45:24 181

原创 2023.04.07 第三十九周周报

结论:增加正则项,减少多头注意力头数,只有batch_size增大,实验三不如实验一,batch_size 过大。结论:实验四和实验六证明batch_size = 2 时实验效果不佳,不可取。1.实验结果的train_score>>eval_score,发生了过拟合。结果:epoch10 eval_score=38 分数增长缓慢。结果:epoch16 eval_score=55 分数增长缓慢。结果:epoch8 eval_score=38 分数增长缓慢。学习时间:2023.4.1-2023.4.7。

2024-04-07 10:47:36 214

原创 2023.03.31 第三十八周周报

1.实验结果的train_score>>eval_score,发生了过拟合。学习时间:2023.3.25-2023.3.31。(2)调整图像特征和文本特征维度,简化网络结构。2.分别进行一下实验应对过拟合现象。(3)减少batch_size大小。(1)增加L2正则化。

2024-03-31 23:29:59 122

原创 2023.03.24 第三十七周周报

2、本周有修改了两版模型结构,完成了其中一版的代码,正在测试中,目前模型的单个epoch训练所需时间为1h,train_score:80。eval代码刚刚写完,等待测试。学习时间:2023.3.18-2023.3.24。1、写了论文的Introduce部分。

2024-03-24 10:08:12 186

原创 2023.03.17 第三十六周周报

2、由于模型训练的结果分数不高,给模型加了一个无分类引导器模块,无分类引导器模块可以提高模型是生成的图片以及文本的质量,希望通过提高生成图片和文本的质量提高最终回答的准确率。学习时间:2023.3.10.4-2023.3.17。1、中英文写了论文的abstract部分。

2024-03-17 09:43:06 102

原创 2023.03.10 第三十五周周报。

2、将单个epoch的训练时间从22小时压缩到三个半小时。但是训练的效果大大减弱。正在考虑如何提高准确率。学习时间:2023.2.4-2023.3.10。1、调整模型的代码,改为多GPU可以并行训练。

2024-03-10 20:00:33 100

原创 2024.03.03第三十四周周报

1、解决了模型训练到第4个epoch是loss为NAN的问题,但是训练时间却从一个epoch10h->22h,目前正在尝试通过调整学习率等参数加快训练。学习时间:2023.2.26-2023.3.3。3、下一步写predict部分代码。2、完成evaluate部分代码。

2024-03-03 09:51:08 116

原创 2023.02.04第三十三周周报

1、修复模型训练过程中最后一个批次矩阵拼接size不匹配问题,原因是最后一个batch的大小不等于batch_size。2、下一步打算继续精简vqa模型部分的注意力机制的网络结构。学习时间:2023.1.29-2023.2.4。4、学习使用overleaf,编排论文结构。3、代码目前还有点小问题需要纠正。

2024-01-29 10:27:57 134

原创 2023.01.28第三十二周周报

1、精简模型网络结构,将噪声预测网络的层数精简为10层,batch_size减少为2之后,一个epoch训练时间从120h变为40h。2、下一步打算继续精简vqa模型部分的注意力机制的网络结构。学习时间:2023.1.22-2023.1.28。4、学习使用overleaf,编排论文结构。3、代码目前还有点小问题需要纠正。

2024-01-28 20:31:43 200

原创 2023.01.21第三十一周周报

1.完成论文代码并跑通,但是训练时间很长,下一步打算精简网络结构。学习时间:2023.1.15-2023.1.21。2.准备开始先写论文的方法等部分。

2024-01-21 11:25:24 360

原创 2024.01.14第三十周周报

学习时间:2023.1.8-2023.1.14。

2024-01-14 19:30:04 372

原创 20230107第二十九周周报

学习时间:2023.1.1-2023.1.7。2.设计模型流程图,书写论文代码。

2024-01-07 10:08:19 352

原创 第28周周报张晨

3.android开发对接口参数修修改改,寻找直播sdk。学习时间:2023.12.25-2023.12.31。2.写代码进展缓慢,写的很艰难。学习内容:1.准备期末。

2023-12-31 18:09:13 372

原创 20231224第二十七周周报

采用uniapp框架vue2进行android开发,ui框架使用uview-ui,进度基本快赶超之前开发进度。学习时间:2023.12.18-2023.12.24。2.大部分时间在进行app的重新开发。1.准备要汇报的论文以及ppt。

2023-12-24 10:31:49 449

原创 20231217第二十六周周报

3.学习使用navigation组件替换目前的viewpager2配合bottomNavigation实现fragement间跳转功能,发现场景不适用。2.项目上修复了不同activatity之间fragement直接跳转会出现重叠的问题。学习时间:2023.12.11-2023.12.17。

2023-12-13 14:30:39 396

原创 20231203第二十五周周报

本打算在unidiffuser的基础上修改代码,但是作者并没有公布训练的代码,unidiffuser的代码是在U-ViT的基础上修改而来, U-ViT的作者有公布完整代码,正在看U-ViT的论文《All are Worth Words: A ViT Backbone for Diffusion Models》,跑通之后将训练代码借鉴过来进行修改。学习内容:1、明白了师兄给的idea,准备开始动手实现。学习时间:2023.12.03-2023.12.10。

2023-12-06 11:23:03 427

原创 20231203第二十四周周报

学习内容:1、《Any-to-Any Generation via Composable Diffusion》2、浏览最近两年的text to image论文,寻找是否有可以快速实现的代码。4、学习广播接收器,计划实现监听用户手机开机和断开网功能。学习时间:2023.11.20-2023.11.26。3、项目上完成扫码功能和生成二维码功能。

2023-12-03 20:43:50 372

原创 202311019第二十三周周报

学习内容:1、跑通论文《One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale》全部模块。学习时间:2023.11.20-2023.11.26。2、论文的代码逻辑结构基本看懂。

2023-11-26 10:18:58 412

原创 202311019第二十二周周报

学习内容:1、跑通论文《One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale》图片转文本部分代码,图片转文本转图片部分。学习时间:2023.11.12-2023.11.19。

2023-11-19 09:41:30 86

原创 202311011第二十一周周报

学习内容:1、看了论文《One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale》4、文本图像的联合生成,图片转文本转图片,文本转图片转文本还没开始跑。学习时间:2023.11.06-2023.11.11。2、尝试跑通代码,目前跑通了文本转换为图片的部分。3、正在跑图片转文本代码。

2023-11-11 20:53:25 60

原创 20231105第二十周周报

学习内容:1、在学长的帮助下找到了一篇可以实现图文互换的文章,目前还在看。学习时间:2023.10.30-2023.11.05。

2023-11-05 09:55:19 43

原创 20231029第十九周周报

4、目前在看《A Thousand Words Are Worth More Than a Picture Natural Language Centric Outside Knowledge Visual Question Answering》学习内容:1、看了一篇论文《Cycle-Consistency for Robust Visual Question Answering》2、看了一篇综述《Visual Question Answering》3、粗浅学了一下diffsion model。

2023-10-29 09:56:51 93

原创 20231022第十八周周报

学习内容:从头开始疏通了对于论文《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》的代码实现过程,并且理清了每一步传入的向量的维度以及数据本身,能够将代码和论文中给的流程图一步一步对应上。学习时间:2023.10.16-2023.10.22。问题:最后一步计算损失的计算过程不理解。

2023-10-21 21:48:59 69

原创 20231015第十七周周报张晨

n-gram。

2023-10-08 16:09:09 41

原创 学习周期第十六周周报张晨

学习内容:1.一直尝试跑通《Cycle-Consistency for Robust Visual Question Answering》的代码,由于ImageNet训练集数据集较大,服务器空间不够,向陈勇学长求教解决无果,向计算机中心申请扩容,目前暂未解决。2.暂时先在看之前跑通的一个代码《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》

2023-10-08 11:45:24 59

原创 学习周期:第十五周

问题:暂时不知道如何接入第三方应用下载,暂时没找到相似项目。学习时间:2023.9.25-2023.10.1。学习内容:1.继续android开发。2.完成<关于我们>页面。3.完成<语言设置>页面。4.完成<联系我们>页面。

2023-10-01 20:29:35 66

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除