01 # 行业大事件
语言大模型的终极目标是什么?
在自然语言处理(NLP)领域,暴力美学仍在延续。
自 2018 年谷歌推出 BERT(3.4 亿参数)以来,语言模型开始朝着「大」演进。国内外先后出现了参数量高达千亿甚至万亿的语言模型,比如谷歌的 T5(110 亿)、OpenAI 的 GPT-3(1,750 亿)、智源研究院的 WuDao2.0(1.75 万亿)……
有人不禁会问,语言模型的参数越来越大,它们究竟能做些什么,又智能到什么程度了呢?
9 月 28 日,浪潮人工智能研究院推出了中文巨量语言模型——源 1.0,让我们看到了语言模型超强的创作能力。
除了轻松应对大多数语言大模型都能完成的对话、故事续写、新闻生成和接对联等任务,源 1.0 还具备风格约束的诗歌创作能力,比如给出李白、杜甫或诗经风格的诗句,模型便能输出相应风格的诗句。堪称诗界的百变大师!
不仅如此,源 1.0 还具备强大的模仿能力,输入一个不存在的词语以及给出它的定义和示例。模型便能依葫芦画瓢,造出符合这个词语定义、逻辑和语境的语句。
这些只是源 1.0 一小部分创作能力的展示,一切都要归功于这个巨量中文模型具有的参数量——2,457 亿,以及它的全球最大中文数据集——5.02TB。并且,源 1.0 并不是由多个小模型堆砌形成,而是单体模型。因参数量巨大,所以称其为「巨量模型」。
相较于 GPT-3 的 1,750 亿参数,源 1.0 是其参数量的 1.404 倍。面对如此巨大的参数量,浪潮 1.0 在 2,128 个 GPU 集群上跑上 16 天完成了训练,每个 GPU 的实际训练性能达到 140 TFlops,消耗的总算力大约为 4,095 PetaFlop/s-day
相比之下,GPT-3 使用 10,000 块 GPU、花了 30 天才训练完了 1,750 亿参数,单 GPU 计算性能为 12TFlops,消