![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
MM-LLM
文章平均质量分 86
灵海之森
一剑霜寒十四州
展开
-
MM-LLM:使用Llava类构建图文多模态大模型实践
多模态大模型的结构如上,llava是用两层MLP作为连接器。该模式也是后续很多工作的基础。本文主要参考了的工作,最初是在b站看到的,讲解的很细致。原创 2024-07-02 22:42:05 · 708 阅读 · 0 评论 -
图像数据不同的表示形式
将图像数据转换为不同的表现形式,可以根据具体的需求和应用场景选择适合的方式。原创 2024-06-28 10:27:35 · 244 阅读 · 0 评论 -
源码解读:InternVL 1.5
对查询和键进行归一化可以稳定数值计算,提高模型的性能和收敛速度,并避免极端权重情况的发生。这种归一化处理在实际应用中已经证明是有效的,可以帮助模型在复杂的任务中表现得更好。from_pretrained函数接受cls和pretrained_model_name_or_path参数,用于从预训练模型的路径或名称加载配置。cls 是一个用于类方法中的通用参数名,指代调用该方法的类本身。原创 2024-06-25 19:55:26 · 730 阅读 · 0 评论 -
MM-LLM:Internvl_chat.v1.5论文解读
直接说提出了一个拉近开源和商业多模态模型的开源模型。优化点:1.更强的Vision Encoder——InternViT-6B;2.动态高分辨率——动态高分辨率;3.高质量的中英双语数据集——显著增强OCR和中文相关的任务。原创 2024-06-24 20:22:40 · 1111 阅读 · 0 评论 -
MM-LLM:CogVLM解读
在图文多模态模型中,范式是图像的编码器、文本编码器、模态融合器。也就是不同模态特征抽取加模态对齐。这部分可以看在大模型里的范式在也是如此,目前的工作大部分都专注于怎么拉齐不同模态。原创 2024-06-24 00:55:54 · 1332 阅读 · 0 评论