旧版: 图像提取特征,语音识别为文字后一起输入给大模型 新版: 图像提取特征,语音提取特征后一起将特征输入给大模型 https://www.youtube.com/watch?v=Ugn0H1qf5Jg