Reka团队打造前沿多模态语言模型，展现卓越性能

最新推荐文章于 2024-09-30 13:49:56 发布

灿烂李

最新推荐文章于 2024-09-30 13:49:56 发布

阅读量872

点赞数 4

文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.csdn.net/ermu114/article/details/137880184

版权

新兴公司Reka推出RekaCore、Flash和Edge，这些基于Transformer的多模态模型在文本、图像、视频和音频处理上表现出色，特别是在编程、STEM和多语言领域。Reka团队通过创新技术和大规模训练，挑战了现有大型语言模型，预示着AI应用的新突破。

摘要由CSDN通过智能技术生成

eka，一家新兴的人工智能公司，近期推出了一系列强大的多模态语言模型 - Reka Core、Reka Flash和Reka Edge。这些模型不仅能处理和推理文本，还能够灵活应对图像、视频和音频等多种输入，在各项测试中表现出色，在某些指标上甚至超越了更大规模的知名模型。

Reka团队由一群来自顶尖科技公司和学术机构的资深研究人员组成，包括曾在DeepMind、OpenAI和Google Brain从事自然语言处理和深度学习研究的专家。他们凭借丰富的行业经验和创新思维，打造出这些多模态语言模型。

在数据准备方面，Reka整合了大量公开和专有的语料库，涵盖了超过5万亿个文本标记。其中约25%的数据与编程相关，30%为STEM领域内容，25%来自网页爬取，10%与数学相关。此外，Reka的数据集还包含了32种不同语言，展现了良好的多语言处理能力。

在模型架构上，Reka采用了模块化的编码器-解码器Transformer结构，支持文本、图像、视频和音频的输入输出。他们借鉴了谷歌PaLM模型的设计思路，但做了一些优化和简化，在保证效率的同时避免过于复杂的结构。

为了提升模型性能，Reka团队在训练过程中引入了多项创新技术

SWIGLU激活函数：相比传统的ReLU，WIGLU能增强模型的表达能力和非线性。

分组查询注意力机制：通过对注意力计算进行分组，大幅提高了计算效率。

旋转位置嵌入：更好地捕捉序列数据中的位置信息。

RMSNORM正则化技术：加速了模型收敛,提高了训练稳定性。

在算力和基础设施方面，Reka主要使用了Nvidia的H100和A100 GPU，在训练高峰期拥有2.5K个H100和2.5K个A100。他们还采用了Ceph分布式文件系统来满足海量数据的存储和访问需求。

Reka Core、Flash和Edge这三款模型在各项基准测试中均取得了卓越成绩。其中，Reka Core的表现几乎与当前最佳的大型语言模型(如GPT-4、Gemini Ultra等)持平，在图像问答、多模态对话等任务上甚至有所超越。而Reka Edge和Flash这两个规模较小的模型，也在各自的算力范围内展现了出色的性能，达到了业界领先水平。

总的来说，Reka团队通过大量高质量数据、先进的算法设计以及优化的训练流程，成功打造了这一系列强大的多模态语言模型，在AI技术发展中树立了新的里程碑。相信未来这些模型在各种实际应用中将发挥重要作用，为行业带来新的突破。