AI周报丨中文巨量模型源1.0比GPT-3强在哪里？；谷歌用协同训练策略实现多个SOTA，单一ViT模型执行多模态多任务

极链AI云

于 2021-12-27 10:26:30 发布

阅读量1.1k

点赞数

分类专栏： AI周报文章标签：人工智能深度学习神经网络计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_60673947/article/details/122166458

版权

01 # 行业大事件

语言大模型的终极目标是什么？

在自然语言处理（NLP）领域，暴力美学仍在延续。

自 2018 年谷歌推出 BERT（3.4 亿参数）以来，语言模型开始朝着「大」演进。国内外先后出现了参数量高达千亿甚至万亿的语言模型，比如谷歌的 T5（110 亿）、OpenAI 的 GPT-3（1,750 亿）、智源研究院的 WuDao2.0（1.75 万亿）……

有人不禁会问，语言模型的参数越来越大，它们究竟能做些什么，又智能到什么程度了呢？

9 月 28 日，浪潮人工智能研究院推出了中文巨量语言模型——源 1.0，让我们看到了语言模型超强的创作能力。

除了轻松应对大多数语言大模型都能完成的对话、故事续写、新闻生成和接对联等任务，源 1.0 还具备风格约束的诗歌创作能力，比如给出李白、杜甫或诗经风格的诗句，模型便能输出相应风格的诗句。堪称诗界的百变大师！

不仅如此，源 1.0 还具备强大的模仿能力，输入一个不存在的词语以及给出它的定义和示例。模型便能依葫芦画瓢，造出符合这个词语定义、逻辑和语境的语句。

这些只是源 1.0 一小部分创作能力的展示，一切都要归功于这个巨量中文模型具有的参数量——2,457 亿，以及它的全球最大中文数据集——5.02TB。并且，源 1.0 并不是由多个小模型堆砌形成，而是单体模型。因参数量巨大，所以称其为「巨量模型」。

相较于 GPT-3 的 1,750 亿参数，源 1.0 是其参数量的 1.404 倍。面对如此巨大的参数量，浪潮 1.0 在 2,128 个 GPU 集群上跑上 16 天完成了训练，每个 GPU 的实际训练性能达到 140 TFlops，消耗的总算力大约为 4,095 PetaFlop/s-day

相比之下，GPT-3 使用 10,000 块 GPU、花了 30 天才训练完了 1,750 亿参数，单 GPU 计算性能为 12TFlops，消

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
AI周报丨中文巨量模型源1.0比GPT-3强在哪里？；谷歌用协同训练策略实现多个SOTA，单一ViT模型执行多模态多任务

01 # 行业大事件语言大模型的终极目标是什么？在自然语言处理（NLP）领域，暴力美学仍在延续。自 2018 年谷歌推出 BERT（3.4 亿参数）以来，语言模型开始朝着「大」演进。国内外先后出现了参数量高达千亿甚至万亿的语言模型，比如谷歌的 T5（110 亿）、OpenAI 的 GPT-3（1,750 亿）、智源研究院的 WuDao2.0（1.75 万亿）……有人不禁会问，语言模型的参数越来越大，它们究竟能做些什么，又智能到什么程度了呢？9 月 28 日，浪潮人工智能研究院推出了中
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。