带你搞懂多模态大模型应用技术！！

最新推荐文章于 2024-09-05 15:19:04 发布

musicml

最新推荐文章于 2024-09-05 15:19:04 发布

阅读量474

点赞数 5

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/musicml/article/details/135376590

版权

▼最近直播超级多，预约保你有收获

今晚直播：《多模态大模型微调技术案例实战》

—1—

Gemini 多模态大模型技术！

Google 新的多模态模型家族 Gemini，它在文本、图像、音频、视频等方面具有卓越的能力。

Gemini 模型是基于 Transformer解码器（Decode Only）构建，针对神经网络结构和目标做了优化，从而提升大规模预训练时训练和推理的稳定性，所以Gemini 是类似 GPT 的 Decoder-only 预测 next token prediction的模式。经过训练以支持 32k 的上下文长度，采用高效的注意机制（例如，多查询注意力（Shazeer，2019）），如下图所示：

Gemini 支持以文本、图像、音频和视频的交错序列作为输入（在输入序列中用不同颜色的标记表示），它可以输出交错的图像和文本响应。

Gemini 把几种模态数据联合起来从从头训练，包括文本、图片、音频、视频等，遵循 next token prediction 的模式，所有模态的数据先变成 token，然后图片、视频等平面数据转换成 32*32 (举例）tokens，最后变成一维线性输入，让模型预测 next token，这样就把不同模态在预训练阶段统一起来。

整个过程涉及到数据工程、预训练、微调、推理策略等几个核心技术，那么这几个核心技术到底是如何实现的？基于多模态大模型的企业级应用案例是如何实现的？

更详细的技术深度剖析，放在今晚20点直播进行：

直播精彩看点：

1、Gemini 原生多模态大模型解读

2、参数高效微调(PEFT) 之 LoRA 技术剖析

3、微调LLM自然语言生成 SQL 案例实践

请同学点击下方按钮预约直播，咱们今晚20点直播见！

重磅福利：2024年带你全面掌握 AIGC 技术体系：大模型架构内核、Fine-tuning 微调、LangChain 开发框架、Agent 开发、向量数据库、部署治理等核心技术，扫码一键全部免费预约直播！

END

关注

5
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

musicml CSDN认证博客专家 CSDN认证企业博客

码龄18年

309: 原创

1万+: 周排名

6408: 总排名

23万+: 访问

: 等级

5484: 积分

1834: 粉丝

2374: 获赞

34: 评论

2691: 收藏

私信

关注

热门文章

最新评论

GraphRAG + Ollama 本地部署全攻略：避坑实战指南
悠哈UHA: 顺带补充，如果用api的话，第二步建立索引就会出问题，改成v1才能成功，不知道为什么
GraphRAG + Ollama 本地部署全攻略：避坑实战指南
悠哈UHA: 我用了api这个接口之后报错 Error embedding chunk {'OpenAIEmbedding': "'NoneType' object is not iterable"}
GraphRAG + Ollama 本地部署全攻略：避坑实战指南
飞鱼逐日: 换个LLM模型试一下，我换了之后就好
GraphRAG + Ollama 本地部署全攻略：避坑实战指南
qudaxiaqudaxia: INFO: Vector Store Args: {} creating llm client with {'api_key': 'REDACTED,len=6', 'type': "openai_chat", 'model': 'llama3:8b', 'max_tokens': 2048, 'temperature': 0.0, 'top_p': 1.0, 'n': 1, 'request_timeout': 180.0, 'api_base': 'http://localhost:11434/v1', 'api_version': None, 'organization': None, 'proxy': None, 'cognitive_services_endpoint': None, 'deployment_name': None, 'model_supports_json': True, 'tokens_per_minute': 0, 'requests_per_minute': 0, 'max_retries': 10, 'max_retry_wait': 10.0, 'sleep_on_rate_limit_recommendation': True, 'concurrent_requests': 1} 然后怎么看到图呢？
GraphRAG + Ollama 本地部署全攻略：避坑实战指南
qudaxiaqudaxia: #查询：python -m graphrag.query --root ./ --method local "who is scrooge, and what are his main relationships?"

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。