【大模型】多模态的原理简述

Jerry_ww

于 2024-08-16 17:16:51 发布

阅读量203

点赞数 9

分类专栏：大模型文章标签：多模态 diffusion 大模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Jerryqjr/article/details/141265017

版权

大模型专栏收录该内容

3 篇文章 0 订阅

订阅专栏

多模态的原理

多模态模型目前基本就是文生图、图生图、图生视频、文生视频这些，其底层逻辑其实还是先从生图片这一源头。因为毕竟视频也是若干帧的图片组成。

所以在生图片的这个环节上，我们把比较火的这个stablediffusion用的这个diffusion扩散模型理解掉，也就差不多够了。

那么什么是扩散模型呢，这里我拿论文中的两张图帮助理解

在这里插入图片描述

一张是前向的，在图片上加噪点，最终生成一张无意义的噪点图，一个是后向的，从一个无意义的噪点图上消除噪点，最终得到一张有意义的实际图片。

其实扩散模型训练的就是这个加减噪点的过程：先把海量的带有标注文字描述的图片，例如“一只白色的小猫”，逐渐加满噪点。在这个过程中，模型会把每一步的图片向量值，和文字的向量值的数据分布的演变规律，进行系统学习并沉淀下来，这就完成了模型的训练。

在后续我们输入文字后，模型就可以根据输入的文字转化为的向量，去指导一个充满噪点的图片每一步减噪点的过程，生成最终的图片。

这里其实有两个点

一个是diffusion模型中加减噪点的方式，其实也与我们大脑中去构思一张图片的方式有些类似，我们去想像一张图片的时候，不也是从一片模糊中逐渐想清楚一张图片嘛

第二个是多模态模型会把文字的向量值和图片的rgb像素点的向量值进行关联，这个也像极了我们大脑中的一个思考过程。

当然这个过程比我描述的还要更复杂，比如过程里还要考虑到，噪点图的原始状态，加减噪点的过程需要多少步，每一步需要加入的噪点分布等等，这里仅为了大家理解方便，仅对主干逻辑作了讲解。

如有感兴趣的同学，可以看一下张涛老师对diffusion原理做的一次分享。个人认为这个分享质量非常棒

【产品人如何学习 AI？以 Stable Diffusion 原理及发展历程为例】 https://www.bilibili.com/video/BV1wZ421h7w7/?share_source=copy_web&vd_source=e20dab09b86a96c6538305ab6db6b7b1

关注

9
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Jerry_ww CSDN认证博客专家 CSDN认证企业博客

码龄3年

115: 原创

3万+: 周排名

1万+: 总排名

8万+: 访问

: 等级

2136: 积分

918: 粉丝

940: 获赞

18: 评论

785: 收藏

私信

关注

热门文章

分类专栏

react 2篇
项目部署 1篇
TypeScript 1篇
大模型 3篇
docker 1篇
vue 23篇
vue面试题 2篇
力扣刷题专栏 3篇
数据结构专栏
ES6 1篇
前端小项目 2篇
蓝桥杯Web组 3篇
css面试题 5篇
JavaScript 18篇
Git 6篇
django 2篇
前端 3篇
数据库 12篇
Ubuntu 1篇
算法 3篇
python 15篇
机器学习 4篇
爬虫 3篇

最新评论

【JavaScript】异步函数(async和await详解)
longhee: 写了很多，理解不够透彻..
【Vue】登录功能中对于错误提示信息的重构
百锦再@新空间代码工作室: 这篇文章的亮点在于作者对复杂问题的深入剖析，特别是在第二节中提到的潜在解决方案。这些方案不仅涵盖了各个层面的考虑，而且给出了可行的实施建议。这种全面性和可操作性使得这篇文章非常有价值。
【Javascript】Promise形象比喻
普通网友: 支持一下，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
【Vue3】computed
普通网友: 文章构思巧妙，结构紧凑，既有深度又有广度，读后让人受益匪浅，确实是一篇值得一读的佳作。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
【Vue】响应式原理与ref
ha_lydms: 这篇博客真是一次精神的洗礼，让我感到内心清爽而舒畅。

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Jerry_ww 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。