Heartache Doctor-CSDN博客

原创 [论文阅读笔记] ViLT Vision-and-Language Transformer Without Convolution or Region Supervision

使用了ViT的思想抽取图像模态的特征，减少视觉文本模型推理效率问题。提供了文本mask和图像增强两种被实验验证可行的训练技巧。

2025-05-20 09:35:55 735

原创 [论文阅读笔记] Multimodal Learning with Transformers

多模态在transformer架构中的使用方法。

2025-05-20 09:35:08 788

原创 [论文阅读笔记] Learning Transferable Visual Models From Natural Language Supervision

将LLM带来的语言zero-shot能力扩展到图像领域，让图像pretrain不再局限于由数据集定义的类别，从而大幅度提升在downstream任务zero-shot的精度。文章提供了从零预训练的CLIP模型，用以训练的大数据集，以及基于对比学习的对齐方案。

2025-05-20 09:34:23 687

原创 [论文阅读笔记] ImageBind, One Embedding Space To Bind Them All

将大量模态和图像模态对齐，再将图像和文本对齐，使模型获得大量模态zero-shot泛化能力。学习出一个能容纳大量模态的语义空间，并使用了实验证明。各个模态的encoder可以使用已有的pretrain encoder，降低使用门槛。训练数据多依赖于co-occur的模态数据，因此降低了收集数据的成本。

2025-05-20 09:33:37 718

原创 [论文阅读笔记] An Image is Worth 16x16 Words - Transformers for Image Recognition at Scale

直接把Transformer搬来给CV领域用。把图像转成文字embedding的形式，输入给Transformer，提高计算效率。

2025-05-20 09:32:58 412

原创 [论文阅读笔记] A Theory of Multimodal Learning

把多模态学习和单模态学习在做的事情进行了抽象，将多模态视为具有不同模态数据辅助从而减少模型复杂度的单模态特例。文章通过数学证明，验证了多模态中数据的异构性和关联性是多模态学习优于单模态学习的关键。

2025-05-20 09:32:16 517

原创 [论文阅读笔记] A Survey on Multimodal Large Language Models

使用LLM辅助的multimodal工作的架构特点以及运用。

2025-05-20 09:31:01 925

原创如何理解weight decay

关于overfitting问题，我们常常十分头疼。众多理论教导我们模型复杂度和泛化能力是tradeoff。今天讨论常用的手段：weight decay。什么是weight decay？简单来说就是通过在损失函数中加入L2_norm(有时也会采用L1_norm，L1_norm的功能有点类似dropout)。

2025-03-20 18:24:27 154

原创频率派和贝叶斯派通俗解释

频率派和贝叶斯派的通俗语言解释

2025-03-19 11:20:27 232 2

原创 [WP] The 2nd World AI4S Prize-Logical Reasoning Track: Evaluation of complex reasoning ability

我是刚开始接触LLM，对RAG知识极少，故没有尝试这个技术。总结一下其实就是改了baseline的训练轮数…所以这篇WP也没什么可以和大家分享的，但是期待各位大佬提出新见解。2 使用参数量更大的模型，例如Qwen1.5-32B。我相信使用参数量更大的模型一定会增加acc。[其实竞赛群中的群友透露过了，32B是足以上0.8的]。受限于算力和硬件影响，选择了参数量较小的开源模型Qwen2-7B-Instruct [同baseline]1 排在最前的就是学会docker，然后打包代码提交了…

2024-09-02 20:00:38 363

原创 [WP] DEEPFAKE writeup

phase1的计分板是根据val_data来评估的，而phase2的计分板才是根据test_data来评估的。

2024-09-02 17:30:00 1778

原创 [Datawhale AI 夏令营 & 第二届世界科学智能大赛逻辑推理赛道] 小白初识LLM

我大致查阅了资料，RAG类似在大模型前加入一个向量生成机，目的是将知识库中的信息转换为向量库。在用户提出问题后，将问题过向量生成机，再将得出的向量和向量库中的向量进行距离评估，从而得出一个较好的prompt输入给LLM。baseline中给予的方法，也是现在最流行的方法，即通过api接口来连接在线开源LLM，并解析api的返回数据包，得出LLM的回复，再从回复中提取答案。所谓提示词，即为输入给LLM的prompt。用于LLM模型高速推理的代码框架，易于使用，与huggingface等开源工具可以无缝衔接。

2024-08-02 18:29:18 836

m0_61053737的博客