alokag-CSDN博客

原创【week16学习周记】视频生成相关阅读，跟风调研并思考

这两年的生成式大模型进入了Transformer的时代，Sora的生成器也采用的是Transformer的结构。但在之前的基于diffusion model的生成式网络中，backbone的选择其实是UNet的结构。最初的扩散模型并不能适应Transformer，所以有一些早期的工作也将“扩散模型”和“自回归方法”完全划分开了（包括我前期的一些文章中也进行了切割）为什么要用Transformer？

2024-03-08 18:37:40 555

原创【学习周记week15】基于知识引导的prompt learning方法

上周因为准备毕设以及ECCV开题所以gap了一周，主要做了一些相关的代码阅读和复现（还有摸鱼）。本周会继续进行Multi-Modal Prompt Engineering领域的调研。其实这种guidance的做法不是第一次见到了，在之前做生成任务的调研时，文生图就很常用guidance的方法，来将生成器的生成内容引导向一个正确的目标。在文生图中，有通过classifier+gradient的方法来进行约束，还有一些其他的做法不赘述，也就是说，可以通过一个先验的方向。

2024-01-14 16:51:08 591 1

原创【week12+13学习周记】提示词学习基本调研

什么是对比学习中的prompt-learning？在跨模态学习中，跨模态预训练模型如CLIP，BLIP等是非常好用的工具，而早在CLIP的提出时，就是通过prompt来实现一个zero-shot的性能。zero-shot的概念是，训练过程中只需要对于两个模态数据进行不特定任务的训练，在测试的过程中却可以在多个任务上都有比较好的效果。在"zero-shot"这个术语中，"shot"指的是模型在特定任务上进行过多少次学习的经验。具体来说，"shot"表示模型在观察（或学习）任务示例（样本）的数量。

2023-12-24 16:35:51 971 1

原创【学习日记week11】不完备的多模态哈希方法，基于对比学习的跨模态检索

首先先进行一篇基于GCN的不完备多模态哈希的方法的学习，关于多模态哈希以及Incomplete问题可以看我之前的专栏记录。

2023-12-15 18:00:27 359 4

原创【学习日记week10】LDM，DALL-E2基于扩散模型的生成方式，以及跨模态生成

Diffusion model在图像生成领域取得了很大的成功，但是，扩散模型因为完全是在像素级别进行训练，一个好的DMs需要很大的计算资源来进行训练和推理。本质上还是自回归模型，训练和推理的复杂性都很高。为了解决这个问题，本文的团队提出将DM的训练应用在一个用AE提前训练好的潜在空间中，达到了速度和细节保持的一个平衡点。模型的整体框架如下，因为整个工作的创新点都是基于引入了潜在空间学习的思想，所以需要构建一个autoencoder，即左边的E\mathcal EE和D\mathcal DD。

2023-12-08 15:26:32 520

原创【学习日记week8&week9】DDPM，VQGAN: 扩散模型以及图像压缩（LDM前传）

生成模型的学习笔记

2023-11-29 22:13:40 232 1

原创【学习日记week7】VQVAE(dVAE)，DALL-E，BEiT：基于生成/跨模态生成的工作概述

写下这段内容的时候笔者正在医院看病，上个特别好的周末时光被至今也不知道是什么的病和发烧给毁了。。这周末又是考s试答辩连着来，大四了人依旧很崩溃。。。BEiT其实在上周就已经看了一半了，然后头痛欲裂在床上连躺三天，吃了好多药也没退烧，嗓子现在和刀割一样>

2023-11-13 16:58:35 622

原创【学习日记week6】基于掩蔽图像生成的跨模态学习方法MVLT和金字塔模型PVT

上周讲的两篇工作中，有一个核心的思路是。ViLEM和COTS的区别主要在于，一个掩蔽学习是进行了替换掩蔽，另一个是直接用掩码[MASK]做掩蔽，且ViLEM是仅在文本模态，COTS是在跨模态上做掩蔽（但是这个掩蔽也是模态独立的）。的掩蔽是在token level的，先将原本的patch进行token化，然后在token上进行复原。

2023-11-03 19:56:10 105

原创【学习日记week5】基于掩蔽的学习方法和跨模态动量对比学习方法（Masked Language Modeling & Cross-modal MCL）

对于一些掩蔽学习以及MoCo的跨模态扩展的学习

2023-10-26 19:23:46 232

原创【学习日记week4】ICCV23论文选：视频文本检索与图像描述

跨模态的视频文本检索，主要的目标是进行从文本内容去进行视频检索（一般是text-to-video而不是video-to-text）。在视频文本检索中最重要的任务是如何进行对齐。最标准的做法是将视频和文本的特征通过编码器提取后直接进行对齐。近年来，有了大规模的跨模态与训练模型CLIP，有一批方法基于CLIP来做这类任务。有方法提出了时间融合模块来聚合不同视频帧的特征，然后对视频和文本特征进行跨模态对齐。此后，还有基于视频帧和文本特征的对齐以及更详细的基于视频帧和词特征的更细粒度的对齐。

2023-10-22 22:08:13 760

原创【学习日记week3】跨模态检索中的预训练模型CLIP4CMR+跨模态多任务预训练模型ALBEF

本周因为本科毕设要开题了，我的调研重点回到了跨模态检索以及不完备数据集上跨模态检索的问题上，本周更多的在看一些预训练模型的方法，挑出一篇基于CLIP在下游任务上的应用CLIP4CMR和一篇预训练模型方法优化的ALBEF方法进行细致学习。

2023-10-16 20:00:04 271 7

原创【学习日记week2】跨模态预训练模型BLIP&图文匹配

第二周多模态学习笔记：多模态预训练模型BLIP

2023-09-28 17:22:27 1363 1

原创【学习日记week1】跨模态信息理解_Unpaired Image Captioning via Scene Graph

aloka的跨模态学习日记

2023-09-22 17:23:19 176 1

原创【学习笔记】不完备数据下的多模态学习问题（更新中）

非完备数据多模态学习——学习笔记。主要是在多模态检索的非完备情况的研究

2023-03-26 01:29:01 1135 4

原创跨模态哈希综述（8.1更新中）

本文主要讲述跨模态哈希方法的发展过程，以及近年的相关研究及其创新点。我是一个本科生，在这个方向上刚刚起步学习，读了一些论文后想自己写一个综述来归纳一下学到的内容。可能内容上并不够全面并且有些内容可能有错误，恳请大佬斧正。如果有相关方向的朋友我也想认识认识，有很多不懂的东西想请教。希望看到的朋友能一起努力，一起学习。本文为持续更新，因为怕丢失内容所以就先上传上来了

2023-03-07 17:35:43 2380 11

原创联合语义对齐散列论文翻译+笔记

有监督的跨模态图文散列在理解数据搜索任务的视觉和语言之间的对应关系方面引起了广泛关注。现有的方法通过利用给定的图像-文本数据对或要探索的监督信息，但这些方法仍然遇到了一些显然的缺陷：解决上面的问题，作者提出了一种更新的有监督的散列方法，即离散联合语义对齐散列（DJSAH）通俗讲是在语义间建立一个连接（又称类标签或成对相似性），因此有很高判别性的语义可被保存为散列代码的形式。...

2022-07-10 17:50:28 345

alokag的博客