AI21实验室推出Jamba模型,突破AI算力瓶颈,引领行业创新!

AI21实验室发布了Jamba,一款基于SSM-Transformer的商业大模型,解决了Transformer架构的问题,性能显著提升,特别适合中小企业和个人开发者。
摘要由CSDN通过智能技术生成

近日,AI领域再次迎来重大突破。知名AI研究实验室AI21在官网正式发布了其最新研究成果——基于SSM-Transformer混合架构的商业大模型Jamba。这款模型不仅继承了Transformer架构的优点,还巧妙地融合了SSM技术的优势,实现了性能和效率的双重飞跃。

AI-321 | 专注于AI工具分享的网站

AI工具集 | 人工智能工具箱 | 全球顶尖AI工具软件推荐与分享!

传统的Transformer架构在处理长序列、训练大参数模型时存在诸多问题,如AI算力消耗大、过拟合、内存占用大等。为了解决这些难题,AI21实验室在Transformer架构基础上引入了结构化状态空间模型(SSM)技术,成功研发出Jamba模型。这款模型在捕获序列内长距离依赖关系、泛化能力、特征提取等方面表现出色,同时有效降低了AI算力消耗和内存占用。

据悉,Jamba模型的吞吐量达到了同类知名开源模型Mixtral8x7B的3倍,同时在单个GPU上能容纳高达140K上下文,展现出了卓越的性能。这意味着,即使没有庞大的GPU集群,中小企业和个人开发者也能通过Jamba开发出高性能、低消耗的生成式AI产品。

Jamba架构的创新之处在于采用了分块分层的方法,巧妙地将SSM和Transformer架构融合在一起。每个Jamba模块都包含一个注意力层或一个Mamba层,然后是一个多层感知器,总体比例为每八个层中有一个Transformer层。这种设计在保证模型推理性能的同时,大大降低了AI算力消耗,提升了吞吐量。

此外,Jamba还是一个专家混合模型(MoE),520亿参数中的120亿参数长期处于激活状态,并对所有MoE层的专家进行了大幅度优化,减轻了推理时内存占用大的问题。

AI21实验室成立于2017年,总部位于特拉维夫和纽约,由三位业界资深人士联合创立。自成立以来,AI21实验室已融资3.26亿美元,并在2023年推出了大语言模型Jurassic-2。Jurassic-2在文本生成、API延迟、语言支持等方面进行了全面增强,同时还开放了指令微调、数据微调等功能,帮助企业和个人开发者打造量身定制的ChatGPT助手。目前,耐克、Zoom、沃尔玛、三星、阿迪达斯、airbnb等知名企业在使用AI21的大模型产品。

总之,AI21实验室发布的Jamba模型为中小企业和个人开发者提供了新的选择,有望推动生成式AI产品的普及和应用。这款模型的成功研发,无疑将为AI领域带来新的变革,引领行业迈向更加美好的未来。

  • 4
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值