截至2024年9月,单张4090能运行的较强开源大模型有以下几个:
1. apus-xdan-4.0(moe):
参数及性能表现:参数规模为1360亿,综合性能超过GPT-3.5,达到GPT-4的90%。在衡量模型语言理解、知识和推理能力的基准测试 MMLU 中表现优异,在测试多步骤数学推理能力的单词问题集合测试 GSM-9K 以及 MATH 中,得分远高于其他一些对比模型。
优势:采用GPT-4类似的MOE架构,多专家模型组合,实际运行效率对比传统dense同尺寸模型效率提升200%,推理成本下降400%。并且经过高精度微调量化技术,模型尺寸缩小500%,可以在消费级显卡4090上运行。
2. Skywork-MoE:
参数及性能表现:总参数量为146B,激活参数量22B,共有16个expert,每个expert大小为13B。在多个基准评测数据集中表现出色,在中文理解和数学推理方面表现突出,用较小的参数规模做到了与其他更大参数规模模型相近的能力。
优势:是首个完整将MOE upcycling技术应用并落地的开源千亿MOE大模型,也是首个支持用单台4090服务器推理的开源千亿MOE大模型。通过一系列技术优化,在推理成本、模型性能和泛化水平上都有较好的表现。
3. CogVideoX-2B:
参数及性能表现:提示词上限为226个token,视频长度为6秒,帧率为8帧/秒,视频分辨率为720*480。
优势:这是一个视频生成模型,在视频生成任务上有一定的能力,并且在FP-16精度下的推理只需18GB显存,单张4090显卡即可进行推理,对硬件要求相对较低,为视频创作等领域提供了一个可用的开源模型。