DeepMind通过拥有2800亿个参数的模型来测试大型人工智能语言系统的极限

DeepMind的最新研究显示,通过扩大其2800亿参数的语言模型Gopher规模,大型语言模型的能力仍在提升。然而,模型存在的性别歧视和逻辑推理问题促使研究人员探讨数据和算力能否解决所有弱点,以及额外训练程序的必要性。
摘要由CSDN通过智能技术生成

该公司新开发的人工智能语言模型被命名为Gopher

语言生成是目前人工智能领域的一大热门。有一类称为“大型语言模型”(即LLM)的系统能够实现各种强大的功能,包括改进谷歌搜索引擎、打造文本界面的奇幻游戏等。但这些项目也存在严重的缺陷,比如会生搬硬套一些涉及性别歧视和种族主义的语言,以及无法通过逻辑推理测试。这就带来了一大问题:只靠增加数据和算力能否克服这些弱点?或者说,这种技术范式是否即将遇到瓶颈?

Alphabet的人工智能实验室DeepMind2021128日发表了三篇研究论文,其中就探讨了这个课题。该公司得出的结论是,进一步扩大这些系统的规模应该能带来长足的改进。DeepMind研究科学家告诉记者:“该论文的一项关键发现是,大型语言模型仍在进化,其能力仍在增强,这一领域还没有进入停滞期。”

DeepMind经常将工作成果运用到谷歌产品中。它建立了一个拥有2800亿个参数的语言模型,将其命名为Gopher,用来探究这种LLM的能力。参数的多少是衡量一种语言的模型大小和复杂程度的直观标准。在这方面来说,GopherOpenAIGPT-31750亿个参数)更大,但不如一些更具实验性的系统,比如微软和英伟达的Megatron模型(5300亿个参数)。

在人工智能领域,一般来说是越大越好的,因为更大的模型通常能提供更高的性能。DeepMind的研究证实了这一趋势,并表明扩大LLM的规模确实能在一些最常见的基准测试(例如情感分析和汇总)中提供更高的性能。然而,研究人员也提醒,要解决语言模型固有的一些问题,不能只依靠数据和计算。

该研究员说:“我认为目前看来,这个模型肯定会以各种方式失败。其中一部分因素在于,模型无法充分理解它所读取的内容,而且我感觉,对于这一类问题,我们只是寄希望于通过更多的数据和更大的规模来改善性能。”

但他又补充说,还存在“其他类别的问题,比如模型没能摆脱老一套的偏见,或者模型被欺骗而给出不实信息。而对于这些问题,DeepMind认为扩大规模也不是解决办法。”他指出,在这些情况下,语言模型将需要“额外的训练程序”,比如来自真人用户的反馈。

为了得出这些结论,DeepMind的研究人员针对152项语言任务或基准测试,评估了一系列不同大小的语言模型。他们发现在一般情况下,模型越大,能提供的结果就越好。而在科学家选择的大约80%的测试中,Gopher具有最先进的性能。

在另一篇论文中,该公司还调查了与部署LLM相关的各种潜在危害。举例而言,系统可能使用有毒语言、分享错误信息、被用于恶意目的(例如分享垃圾邮件或广告宣传)。随着人工智能语言模型的部署范围越发广泛(例如作为聊天机器人和销售代理),上述所有问题都会显得越发重要。

但值得注意的是,在评估机器学习系统时,基准测试的性能并不是终极标准。在最近的一篇论文中,一些人工智能研究人员(其中两人来自谷歌)探讨了基准测试的局限性。他们指出,这些数据集的范围终归是有限的,无法与现实世界的复杂性相提并论。要测试这些系统,唯一可靠的方法就是看实际应用中的表现——新技术都不外乎如是。而借助大型语言模型,我们将很快看到更多这样的应用。

稿件来源:https://www.theverge.com/2021/12/8/22822199/large-language-models-ai-deepmind-scaling-gopher

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值