跨模态模型融合技术

语音模态 

星辰语音大模型-超多方言ASR

阿里语音模型

FunAudioLLM - 阿里巴巴通义团队推出的开源语音大模型 | AI工具集

阿里通义音频生成大模型 FunAudioLLM 开源!-阿里云开发者社区 (aliyun.com)

关于模型结构解读

一个是

语音理解模型:SenseVoice

这里又分了小的 大的

还有一个语音合成模型:CosyVoice

语言模型

Llama3.1 



Lhttps://github.com/chenzomi12/AIFoundation

技术文章

数据预处理通过很多的bert类模型进行过滤处理

小模型是通过大模型蒸馏出来的 

注意力机制不同的qkv对应情况

后训练阶段

SFT RS(拒绝采样) DPO

多模态融合

首先是先把语言模型训练好

架构

MOE与transformer

数据

合成数据 在SFT 阶段

能力上限

Scaling Law

9.11和9.9的比较

机器指令应用

Instruct2Act:使用大型语言模型将多模态指令映射到机器人动作-CSDN博客

  • 6
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值