非注意力机制大模型？

百态老人

于 2024-08-17 08:12:27 发布

阅读量1.1k

点赞数 9

文章标签：人工智能大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41429382/article/details/141275160

版权

岩芯数智人工智能科技有限公司于2024年1月24日在上海发布了国内首个非Attention机制的通用自然语言大模型——Yan模型。该模型被称为Yan模型，使用了全新的架构，旨在解决Transformer架构在算力消耗、显存占用、成本高昂以及难以控制等问题。此外，Yan模型还支持离线端侧部署，进一步提升了其应用灵活性和效率。

值得注意的是，尽管岩芯数智的Yan模型是首个国内非Attention机制的大模型，但全球范围内也有其他公司和研究团队在探索无注意力机制的深度学习模型。例如，有报道提到Falcon Mamba作为首个无注意力大模型，挑战了Transformer架构。此外，还有报道指出首个纯无注意力大模型已经超越了开源巨头Llama 3.1。

岩芯数智发布的Yan模型是国内首个非Attention机制的大模型，标志着国内在这一领域的突破，并且该模型在性能和应用方面都有显著的优势。

岩芯数智人工智能科技有限公司发布的Yan模型的具体架构和技术细节是什么？

岩芯数智人工智能科技有限公司发布的Yan模型是一种非Transformer架构的通用自然语言处理（NLP）大模型。该模型采用了全新的自研“Yan架构”，代替了传统的Transformer架构，具有以下技术细节和特点：

1. 非Attention机制：Yan模型彻底放弃了Transformer中的Attention注意力机制，转而采用计算量更小、难度更低的线性计算方式。

2. 训练效率和推理性能：相较于同等参数的Transformer模型，Yan模型在训练效率上提升了7倍，在推理吞吐量上提升了5倍，并且在记忆能力上提升了3倍。

3. 成本效益：Yan模型以半价的成本实现了百万级参数的大模型，这表明其在性价比方面有显著优势。

4. 多模态支持：Yan模型不仅支持文本处理，还承诺为用户提供多模态的支持，帮助各产业链快速、低成本地向智能化转型。

5. 架构创新：Yan架构通过“四个率先”实现了性能和成本两方面的提升，具体包括对传统序列模型网络结构的重新构思和优化。

Yan模型如何实现离线端侧部署，以及这种部署方式对模型性能的影响？

Yan模型通过其自研的“Yan架构”实现了离线端侧部署。这种架构相较于传统的Transformer架构，具有显著的优势：Yan架构的记忆能力提升了3倍，速度提升了7倍。此外，Yan模型支持100

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

百态老人 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。