论文风向变了！迁移学习+多模态融合才是王道！性能爆炸好

江湖人称麻花滕

于 2024-09-11 20:32:43 发布

阅读量494

点赞数 15

文章标签：迁移学习人工智能机器学习语言模型自然语言处理深度学习 AI编程

本文链接：https://blog.csdn.net/m0_59235699/article/details/142149575

版权

多模态如今是越来越火了，与之相关的研究方向在各大顶会基本都成了投稿热门，趁着这波风向，我也给想发论文但找不着idea的同学推荐一个创新思路：迁移学习+多模态融合。

这种结合可以轻松搞定提高性能这一核心问题，通过将源领域学习到的多模态知识迁移到目标领域，就可以快速适应目标领域的任务需求。

不仅如此，这种在不同模态之间实现更有效知识传递和信息融合的能力，也能提高模型在新任务上的准确率。比如胸部X光模型MultiFusionNet，在两类分类中取得了99.6％的高准确率。

为了让大家更好的掌握这个创新思路，然后运用到自己的文章中，今天我就来分享10种迁移学习+多模态融合创新方法，都是今年最新，代码基本都有。

MultiFusionNet: multilayer multimodal fusion of deep neural networks for chest X-ray image classification

方法：论文提出了一种结合了迁移学习和多模态融合的方法，用于胸部X光图像分类。该方法强调从不同层次提取特征并将它们融合，考虑了每一层捕获的区分性信息，并提出了一种不同尺寸特征图融合模块，以有效地合并来自不同层的特征图。MultiFusionNet在三类和两类分类中分别取得了97.21％和99.60％的显著较高准确率。

创新点：

提出了一种新颖的深度学习模型，即多层多模态融合模型，用于增强肺部疾病的分类准确性。
设计了一个独立的特征图转换模块，用于解决在多个层次生成的特征图具有不同大小的问题。
提供了一个更大的数据集（Cov-Pneum），用于X射线图像，通过处理和合并多个公开可用的数据集，并在该数据集上评估了多个最新研究模型的性能。

A Multimodal Transfer Learning Approach Using PubMedCLIP for Medical Image Classification

方法：论文提出了一种新的医学图像分类的迁移学习方法，通过结合预训练的PubMedCLIP模型和多模态特征融合，提出了一个多模态学习框架，通过将图片和文本输入进行特征融合，提高了图像分类的准确性，并降低了标注成本。实验证明该方法在不同医学图像数据集上实现了准确率超过90%的优异性能。

创新点：

提出了一种有效利用图像标签进行模型训练的方法，通过将文本提示与图像内容相连接，以提高性能。
通过逐渐增加提示模板中的上下文信息来改进模型的性能。
提出了一种新的特征融合方法，以进一步提高模型的性能。

MoPE: Parameter-Efficient and Scalable Multimodal Fusion via Mixture of Prompt Experts

**方法：**论文提出了一种新的多模态融合方法，用于提高迁移学习的参数效率和可扩展性。MoPE技术通过混合专家提示的方式，实现了对不同模态数据的有效融合，且在只需要大约0.8%的可训练参数的情况下，就实现了与全参数微调相匹配或更优的性能。

创新点：

通过将传统prompt拆分为静态和动态prompt以及映射prompt的方式，提出了一种条件prompt调整的方法，以实现自适应的prompt调整。
基于MoPE的设计，通过使用多个prompt专家和一个路由器来增加prompt调整的表达力。这种方法在多模态融合中表现出更高的表达力，并且在数据和可训练参数数量增加时具有更好的扩展性。

Multi-modal fusion using Fine-tuned Self-attention and transfer learning for veracity analysis of web information

方法：论文中提到的多模态融合方法结合了迁移学习的优势，通过微调预训练模型来提高特定任务的性能。这种方法在多模态数据的准确性等多个评估指标上有显著的性能提升，在All Data数据集上达到了97.19%的最高准确率。

创新点；

使用多模态融合架构进行虚假信息的真实性分析，综合考虑了文本和图像的属性。
使用BERT和ALBERT语言模型提取文本特征，并使用Inception-ResNet-v2深度神经网络模型提取图像特征，以实现多模态数据的真实性分析。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

江湖人称麻花滕

关注

15
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
论文风向变了！迁移学习+多模态融合才是王道！性能爆炸好

多模态如今是越来越火了，与之相关的研究方向在各大顶会基本都成了投稿热门，趁着这波风向，我也给想发论文但找不着idea的同学推荐一个创新思路：迁移学习+多模态融合。这种结合可以轻松搞定提高性能这一核心问题，通过将源领域学习到的多模态知识迁移到目标领域，就可以快速适应目标领域的任务需求。不仅如此，这种在不同模态之间实现更有效知识传递和信息融合的能力，也能提高模型在新任务上的准确率。比如胸部X光模型MultiFusionNet，在两类分类中取得了99.6％的高准确率。为了让大家更好的掌握这个创新思路，然后运用到自
复制链接

扫一扫