非常棒的长文本输入大模型:MiniMax以及基于它的海螺AI模型

非常棒的长文本输入大模型:基于MiniMax的海螺AI模型,快来体验一下吧! 海螺AI—MiniMax 旗下生产力产品,你的AI伙伴,10倍速提升工作学习效率

这个大模型最大的特点就是支持长文本输入,而且是从内部就擅长对长文本的处理,根据其github开源项目的描述,其长文本处理能力要优于当前市面上流行的各类模型,就像断水流大师兄说的:我不是针对谁,我是说在座的各位,都是XX。

MiniMax-01 系列模型

源代码:https://github.com/MiniMax-AI/MiniMax-01

 MiniMax-01 系列模型包括两款模型:MiniMax-Text-01 和 MiniMax-VL-01

MiniMax-Text-01 是一个强大的语言模型,拥有 4560 亿个总参数,每个令牌激活 459 亿个参数。为了解锁其长上下文功能,它采用了集成了 Lightning Attention、Softmax Attention 和 Mixture-of-Experts (MoE) 的混合架构。利用线性注意力序列并行增强 (LASP+)、varlen 环注意力和专家张量并行 (ETP) 等高级并行策略,其训练上下文长度扩展到 100 万个令牌,并且在推理过程中可以处理多达 400 万个令牌。因此,MiniMax-Text-01 在各种学术基准测试中展示了顶级性能。

基于 MiniMax-Text-01 的强大功能,开发了 MiniMax-VL-01 以增强视觉功能。它使用多模态 LLM 中常见的 “ViT-MLP-LLM” 框架。它使用三个关键组件进行初始化和训练:用于视觉编码的 3.03 亿参数视觉转换器 (ViT)、用于图像自适应的随机初始化的两层 MLP 投影仪以及作为基本 LLM 的 MiniMax-Text-01。该模型具有动态分辨率机制。输入图像根据预设网格调整大小,分辨率范围为 336×336 到 2016×2016,同时保持 336×336 缩略图。调整大小后的图像被分割成相同大小的不重叠的图块。这些色块和缩略图分别编码,然后组合起来形成完整的图像表示形式。因此,MiniMax-VL-01 在多模态排行榜上取得了顶级性能,展示了其在复杂多模态任务中的优势。

模型架构

MiniMax-Text-01 的架构简要说明如下:

  • 总参数: 456B
  • 每个令牌的激活参数数:45.9B
  • 编号层数:80
  • 混合注意力:每 7 次闪电注意后放置一个 softmax 注意力。
    • 注意力头数:64
    • 注意头尺寸:128
  • 专家混合:
    • 专家人数: 32
    • 专家隐藏维度:9216
    • Top-2 路由策略
  • 位置编码:旋转位置嵌入 (RoPE) 应用于注意力头尺寸的一半,基本频率为 10,000,000
  • 隐藏尺寸: 6144
  • 词汇量: 200,064

对于 MiniMax-VL-01,其他 ViT 架构详细信息如下:

  • 总参数:303M
  • 层数: 24
  • 补丁大小:14
  • 隐藏尺寸: 1024
  • FFN 隐藏大小:4096
  • 刀头数量: 16
  • 注意头尺寸:64

3. 评估

文本基准测试

核心学术基准Core Academic Benchmarks
TasksGPT-4o (11-20)Claude-3.5-Sonnet (10-22)Gemini-1.5-Pro (002)Gemini-2.0-Flash (exp)Qwen2.5-72B-Inst.DeepSeek-V3Llama-3.1-405B-Inst.MiniMax-Text-01
General
MMLU*85.788.386.886.586.188.588.688.5
MMLU-Pro*74.478.075.876.471.175.973.375.7
SimpleQA39.028.123.426.610.324.923.223.7
C-SimpleQA64.656.859.463.352.264.854.767.4
IFEval (avg)84.190.189.488.487.287.386.489.1
Arena-Hard92.487.685.372.781.291.463.589.1
Reasoning
GPQA* (diamond)46.065.059.162.149.059.150.754.4
DROP* (F1)89.288.889.289.385.091.092.587.8
Mathematics
GSM8k*95.696.995.295.495.896.796.794.8
MATH*76.674.184.683.981.884.673.877.4
Coding
MBPP +76.275.175.475.977.078.873.071.7
HumanEval90.293.786.689.686.692.189.086.9

* Evaluated following a 0-shot CoT setting.

任务GPT-4o (11-20)克劳德-3.5-十四行诗 (10-22)双子座-1.5-Pro (002)Gemini-2.0-Flash (exp)Qwen2.5-72B-研究所深度搜索-V3美洲驼-3.1-405B-研究所MiniMax-Text-01 (英文)
常规
MMLU*85.788.386.886.586.188.588.688.5
MMLU-Pro 系列*74.478.075.876.471.175.973.375.7
简单质量保证39.028.123.426.610.324.923.223.7
C-SimpleQA 型64.656.859.463.352.264.854.767.4
IFEval (avg)84.190.189.488.487.287.386.489.1
竞技场-困难92.487.685.372.781.291.463.589.1
推理
GPQA(钻石)*46.065.059.162.149.059.150.754.4
DROP (F1)*89.288.889.289.385.091.092.587.8
数学
GSM8k*95.696.995.295.495.896.796.794.8
数学*76.674.184.683.981.884.673.877.4
编码
MBPP +76.275.175.475.977.078.873.071.7
HumanEval90.293.786.689.686.692.189.086.9
 长文本:Ruler
Model4k8k16k32k64k128k256k512k1M
GPT-4o (11-20)0.9700.9210.8900.8880.884----
Claude-3.5-Sonnet (10-22)0.9650.9600.9570.9500.9520.938---
Gemini-1.5-Pro (002)0.9620.9600.9600.9580.9380.9170.9160.8610.850
Gemini-2.0-Flash (exp)0.9600.9600.9510.9570.9370.8600.7970.709-
MiniMax-Text-010.9630.9610.9530.9540.9430.9470.9450.9280.910

可以看到,越长的文本,MiniMax的表现越好!

### 关于 MiniMax 开源大模型 #### 介绍 MiniMax 是一家成立于2021年12月的人工智能公司,专注于开发先进的大型语言模型(LLMs)。该公司由商汤科技前副总裁闫俊杰创立。核心技术围绕着名为 ABAB 的大模型展开,该模型采用了独特的 Mixture of Experts (MoE) 架构,在国内率先实现了这一创新设计[^1]。 #### 特点 - **高效能与大规模参数**:得益于 MoE 架构的应用,使得即使面对复杂的任务也能维持高效的运算表现;同时支持更大规模的参数配置。 - **多模态理解能力增强**:对于图像、文本等形式的数据具备更强的理解力。 - **跨语言适应性强**:不仅限于单一语种的支持,而是可以处理来自不同文化背景下的自然语言交流需求。 - **快速迭代更新机制**:持续优化算法逻辑和技术框架,确保始终处于行业前沿位置。 #### 使用方法 为了便于开发者接入并利用这些强大的功能模块,MiniMax 推出了专门面向第三方用户的开放接口——MiniMax API 平台。通过简单的注册流程即可获得访问权限,并按照官方文档指导完成相应调用操作。此外还有像 海螺 AI 和 星野 这样的具体解决方案可供选择,它们分别针对特定类型的业务场景做了针对性适配调整。 ```python import requests def call_minimax_api(api_key, prompt_text): url = "https://api.minimax.chat/v1/generate" headers = { 'Authorization': f'Bearer {api_key}', 'Content-Type': 'application/json' } payload = {"prompt": prompt_text} response = requests.post(url, json=payload, headers=headers) return response.json() ``` #### 应用场景 - **聊天对话系统构建**:无论是客服机器人还是社交娱乐类应用中的虚拟伙伴角色创建都能发挥重要作用; - **自动化内容创作工具**:辅助撰写文章、脚本编写甚至是创意构思环节提供灵感源泉; - **语音交互设备集成方案**:智能家居控制中心或是车载信息系统内的声控命令解析等功能实现; - **情绪识别与反馈生成器**:帮助品牌更好地把握消费者心理状态变化趋势从而制定更精准营销策略。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值