AI21实验室推出Jamba模型，突破AI算力瓶颈，引领行业创新！

最新推荐文章于 2024-09-01 21:08:00 发布

AI-321 | 顶尖AI工具分享的网站

最新推荐文章于 2024-09-01 21:08:00 发布

阅读量494

点赞数 4

文章标签：人工智能

本文链接：https://blog.csdn.net/AiBoxss/article/details/137143379

版权

AI21实验室发布了Jamba，一款基于SSM-Transformer的商业大模型，解决了Transformer架构的问题，性能显著提升，特别适合中小企业和个人开发者。

摘要由CSDN通过智能技术生成

近日，AI领域再次迎来重大突破。知名AI研究实验室AI21在官网正式发布了其最新研究成果——基于SSM-Transformer混合架构的商业大模型Jamba。这款模型不仅继承了Transformer架构的优点，还巧妙地融合了SSM技术的优势，实现了性能和效率的双重飞跃。

AI-321 | 专注于AI工具分享的网站

AI工具集 | 人工智能工具箱 | 全球顶尖AI工具软件推荐与分享！

传统的Transformer架构在处理长序列、训练大参数模型时存在诸多问题，如AI算力消耗大、过拟合、内存占用大等。为了解决这些难题，AI21实验室在Transformer架构基础上引入了结构化状态空间模型（SSM）技术，成功研发出Jamba模型。这款模型在捕获序列内长距离依赖关系、泛化能力、特征提取等方面表现出色，同时有效降低了AI算力消耗和内存占用。

据悉，Jamba模型的吞吐量达到了同类知名开源模型Mixtral8x7B的3倍，同时在单个GPU上能容纳高达140K上下文，展现出了卓越的性能。这意味着，即使没有庞大的GPU集群，中小企业和个人开发者也能通过Jamba开发出高性能、低消耗的生成式AI产品。

Jamba架构的创新之处在于采用了分块分层的方法，巧妙地将SSM和Transformer架构融合在一起。每个Jamba模块都包含一个注意力层或一个Mamba层，然后是一个多层感知器，总体比例为每八个层中有一个Transformer层。这种设计在保证模型推理性能的同时，大大降低了AI算力消耗，提升了吞吐量。

此外，Jamba还是一个专家混合模型（MoE），520亿参数中的120亿参数长期处于激活状态，并对所有MoE层的专家进行了大幅度优化，减轻了推理时内存占用大的问题。

AI21实验室成立于2017年，总部位于特拉维夫和纽约，由三位业界资深人士联合创立。自成立以来，AI21实验室已融资3.26亿美元，并在2023年推出了大语言模型Jurassic-2。Jurassic-2在文本生成、API延迟、语言支持等方面进行了全面增强，同时还开放了指令微调、数据微调等功能，帮助企业和个人开发者打造量身定制的ChatGPT助手。目前，耐克、Zoom、沃尔玛、三星、阿迪达斯、airbnb等知名企业在使用AI21的大模型产品。

总之，AI21实验室发布的Jamba模型为中小企业和个人开发者提供了新的选择，有望推动生成式AI产品的普及和应用。这款模型的成功研发，无疑将为AI领域带来新的变革，引领行业迈向更加美好的未来。

AI-321 | 顶尖AI工具分享的网站

关注

4
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
AI21实验室推出Jamba模型，突破AI算力瓶颈，引领行业创新！

这款模型不仅继承了Transformer架构的优点，还巧妙地融合了SSM技术的优势，实现了性能和效率的双重飞跃。据悉，Jamba模型的吞吐量达到了同类知名开源模型Mixtral8x7B的3倍，同时在单个GPU上能容纳高达140K上下文，展现出了卓越的性能。这款模型的成功研发，无疑将为AI领域带来新的变革，引领行业迈向更加美好的未来。此外，Jamba还是一个专家混合模型（MoE），520亿参数中的120亿参数长期处于激活状态，并对所有MoE层的专家进行了大幅度优化，减轻了推理时内存占用大的问题。
复制链接

扫一扫