- 博客(17)
- 收藏
- 关注
原创 [论文阅读笔记] ViLT Vision-and-Language Transformer Without Convolution or Region Supervision
使用了ViT的思想抽取图像模态的特征,减少视觉文本模型推理效率问题。提供了文本mask和图像增强两种被实验验证可行的训练技巧。
2025-05-20 09:35:55
735
原创 [论文阅读笔记] Learning Transferable Visual Models From Natural Language Supervision
将LLM带来的语言zero-shot能力扩展到图像领域,让图像pretrain不再局限于由数据集定义的类别,从而大幅度提升在downstream任务zero-shot的精度。文章提供了从零预训练的CLIP模型,用以训练的大数据集,以及基于对比学习的对齐方案。
2025-05-20 09:34:23
687
原创 [论文阅读笔记] ImageBind, One Embedding Space To Bind Them All
将大量模态和图像模态对齐,再将图像和文本对齐,使模型获得大量模态zero-shot泛化能力。学习出一个能容纳大量模态的语义空间,并使用了实验证明。各个模态的encoder可以使用已有的pretrain encoder,降低使用门槛。训练数据多依赖于co-occur的模态数据,因此降低了收集数据的成本。
2025-05-20 09:33:37
718
原创 [论文阅读笔记] An Image is Worth 16x16 Words - Transformers for Image Recognition at Scale
直接把Transformer搬来给CV领域用。把图像转成文字embedding的形式,输入给Transformer,提高计算效率。
2025-05-20 09:32:58
412
原创 [论文阅读笔记] A Theory of Multimodal Learning
把多模态学习和单模态学习在做的事情进行了抽象,将多模态视为具有不同模态数据辅助从而减少模型复杂度的单模态特例。文章通过数学证明,验证了多模态中数据的异构性和关联性是多模态学习优于单模态学习的关键。
2025-05-20 09:32:16
517
原创 [论文阅读笔记] A Survey on Multimodal Large Language Models
使用LLM辅助的multimodal工作的架构特点以及运用。
2025-05-20 09:31:01
925
原创 如何理解weight decay
关于overfitting问题,我们常常十分头疼。众多理论教导我们模型复杂度和泛化能力是tradeoff。今天讨论常用的手段:weight decay。什么是weight decay?简单来说就是通过在损失函数中加入L2_norm(有时也会采用L1_norm,L1_norm的功能有点类似dropout)。
2025-03-20 18:24:27
154
原创 [WP] The 2nd World AI4S Prize-Logical Reasoning Track: Evaluation of complex reasoning ability
我是刚开始接触LLM,对RAG知识极少,故没有尝试这个技术。总结一下其实就是改了baseline的训练轮数…所以这篇WP也没什么可以和大家分享的,但是期待各位大佬提出新见解。2 使用参数量更大的模型,例如Qwen1.5-32B。我相信使用参数量更大的模型一定会增加acc。[其实竞赛群中的群友透露过了,32B是足以上0.8的]。受限于算力和硬件影响,选择了参数量较小的开源模型Qwen2-7B-Instruct [同baseline]1 排在最前的就是学会docker,然后打包代码提交了…
2024-09-02 20:00:38
363
原创 [WP] DEEPFAKE writeup
phase1的计分板是根据val_data来评估的,而phase2的计分板才是根据test_data来评估的。
2024-09-02 17:30:00
1778
原创 [Datawhale AI 夏令营 & 第二届世界科学智能大赛逻辑推理赛道] 小白初识LLM
我大致查阅了资料,RAG类似在大模型前加入一个向量生成机,目的是将知识库中的信息转换为向量库。在用户提出问题后,将问题过向量生成机,再将得出的向量和向量库中的向量进行距离评估,从而得出一个较好的prompt输入给LLM。baseline中给予的方法,也是现在最流行的方法,即通过api接口来连接在线开源LLM,并解析api的返回数据包,得出LLM的回复,再从回复中提取答案。所谓提示词,即为输入给LLM的prompt。用于LLM模型高速推理的代码框架,易于使用,与huggingface等开源工具可以无缝衔接。
2024-08-02 18:29:18
836
原创 [DEEPFAKE & Datawhale AI 夏令营] TASK3 自我探索,解决问题,冲击高分!
通过代码阅读,感觉是没问题的。等后续训练再说。
2024-07-20 19:32:12
261
原创 [DEEPFAKE & Datawhale AI 夏令营] TASK2 全量训练,火力全开;发现问题,研究问题
非常感谢以下baseline code的分享,对我受益匪浅:如果您觉得有意思,可否点赞收藏关注一下本蒟蒻!谢谢!
2024-07-17 21:23:11
208
原创 [DEEPFAKE & Datawhale AI 夏令营] TASK1 跑通baseline
解决方案:http://t.csdnimg.cn/rMopF。
2024-07-11 18:52:41
314
1
原创 【解题思路最详细】多重集组合数(dp计数)(优化后状态转移方程的理解)
如果想看优化后状态转移方程的理解,请直接移步到文章最后,文章前半段仅仅在讲解dp计数求多重集组合数的解题思路和方法。
2023-05-22 19:20:27
430
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人