▼最近直播超级多,预约保你有收获
今晚直播:《多模态大模型微调技术案例实战》
—1—
Gemini 多模态大模型技术!
Google 新的多模态模型家族 Gemini,它在文本、图像、音频、视频等方面具有卓越的能力。
Gemini 模型是基于 Transformer解码器(Decode Only)构建,针对神经网络结构和目标做了优化,从而提升大规模预训练时训练和推理的稳定性,所以Gemini 是类似 GPT 的 Decoder-only 预测 next token prediction的模式。经过训练以支持 32k 的上下文长度,采用高效的注意机制(例如,多查询注意力(Shazeer,2019)),如下图所示:
Gemini 支持以文本、图像、音频和视频的交错序列作为输入(在输入序列中用不同颜色的标记表示),它可以输出交错的图像和文本响应。
Gemini 把几种模态数据联合起来从从头训练,包括文本、图片、音频、视频等,遵循 next token prediction 的模式,所有模态的数据先变成 token,然后图片、视频等平面数据转换成 32*32 (举例)tokens,最后变成一维线性输入,让模型预测 next token,这样就把不同模态在预训练阶段统一起来。
整个过程涉及到数据工程、预训练、微调、推理策略等几个核心技术,那么这几个核心技术到底是如何实现的?基于多模态大模型的企业级应用案例是如何实现的?
更详细的技术深度剖析,放在今晚20点直播进行:
直播精彩看点:
1、Gemini 原生多模态大模型解读
2、参数高效微调(PEFT) 之 LoRA 技术剖析
3、微调LLM自然语言生成 SQL 案例实践
请同学点击下方按钮预约直播,咱们今晚20点直播见!
重磅福利:2024年带你全面掌握 AIGC 技术体系:大模型架构内核、Fine-tuning 微调、LangChain 开发框架、Agent 开发、向量数据库、部署治理等核心技术,扫码一键全部免费预约直播!
END