带你搞懂多模态大模型应用技术!!

▼最近直播超级多,预约保你有收获

今晚直播:《多模态大模型微调技术案例实战

 1

Gemini 多模态大模型技术!

Google 新的多模态模型家族 Gemini,它在文本、图像、音频、视频等方面具有卓越的能力。

Gemini 模型是基于 Transformer解码器(Decode Only)构建,针对神经网络结构和目标做了优化,从而提升大规模预训练时训练和推理的稳定性,所以Gemini 是类似 GPT 的 Decoder-only 预测 next token prediction的模式。经过训练以支持 32k 的上下文长度,采用高效的注意机制(例如,多查询注意力(Shazeer,2019)),如下图所示:


aba018eb9f9c2a8c0906eb262d2525e8.png

Gemini 支持以文本、图像、音频和视频的交错序列作为输入(在输入序列中用不同颜色的标记表示),它可以输出交错的图像和文本响应。

Gemini 把几种模态数据联合起来从从头训练,包括文本、图片、音频、视频等,遵循 next token prediction 的模式,所有模态的数据先变成 token,然后图片、视频等平面数据转换成 32*32 (举例)tokens,最后变成一维线性输入,让模型预测 next token,这样就把不同模态在预训练阶段统一起来。

整个过程涉及到数据工程、预训练、微调、推理策略等几个核心技术,那么这几个核心技术到底是如何实现的?基于多模态大模型的企业级应用案例是如何实现的?

更详细的技术深度剖析,放在今晚20点直播进行:

直播精彩看点

1、Gemini 原生多模态大模型解读

2、参数高效微调(PEFT) 之 LoRA 技术剖析

3、微调LLM自然语言生成 SQL 案例实践

请同学点击下方按钮预约直播,咱们今晚20点直播见!

重磅福利:2024年带你全面掌握 AIGC 技术体系:大模型架构内核、Fine-tuning 微调、LangChain 开发框架、Agent 开发、向量数据库、部署治理等核心技术,扫码一键全部免费预约直播

7e5ee55b2d0971ffd8579c40cb884521.png

END

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值