第二章 2.3 计算机语言《2022年斯坦福AI指数报告》中文全解读

    斯坦福大学的人工智能机构 Stanford Institute for Human-Centered Artificial Intelligence (HAI)发布的这第五版《AI指数报告》(2022)英文版一共230页。为了方便阅读,我将他翻译成中文记录下来,本文仅摘取重要且有趣的部分,且有部分自己的阅读感受和见解,需要阅读原文的请至链接2022年斯坦福AI指数报告-深度学习文档类资源-CSDN下载。

    人工智能指数报告跟踪、整理、提炼和可视化与人工智能相关的数据。这份报告的使命是为政策制定者、研究人员、企业高管、媒体记者提供公正、经过严格审查的全球数据,使得公众对复杂的人工智能领域有更透彻、更细致入微的理解。它旨在成为世界上最可信、最权威的人工智能数据和见解来源。

第二章. 人工智能模型性能

    今年,模型性能章节包含了对人工智能更多技术子领域的分析,包括计算机视觉、语言、语音、推荐、强化学习、硬件和机器人技术。本次调研使用了许多量化测量方法,从常见的人工智能基准算法和对泛化领域调研的大赛挑战,来突出表现那些最佳人工智能模型的发展历程。

概要:

  • 数据,数据,数据:基于实验室基准条件的模型技术结果则越来越依赖于使用更多的训练数据来获得更先进的结果。换言之,模型本身的设计好坏往往差别不大,而更多的训练数据能带来更好的实验效果。截至 2021 年,斯坦福大学AI指标报告中的 10 个基准测试中有 9 个最先进的 AI 系统经过了更多的训练。这种趋势隐隐指引着私营参与者倾向去寻找大量的数据集。
  • 对特定计算机视觉子任务的兴趣日益浓厚:2021 年,研究界在一些具体的计算机视觉子任务上有着更高的兴趣水平,例如医学图像分割和蒙面人脸识别(我的导师张百灵教授在2015年左右就在研究这几个领域的具体任务,我想现在研究界只是有更多来自工程学院和生物学院的教授关心这类识别为他们在特定领域研究带来的创新成果,仅此而已)。例如,2020年前只有 3 篇研究论文针对 Kvasir-SEG 医学成像测试了系统基准。2021 年,有 25 篇研究论文。这种增长表明人工智能研究是在转向更直接、更实际应用的研究。
  • AI 尚未掌握复杂的语言任务:AI 在基本阅读技术基准的性能上已经超过了人类的水平,SuperGLUE 和 SQuAD 等阅读理解基准表现提高了 1%–5%。虽然人工智能系统仍然无法在更复杂的语言任务上达到可媲美人类的表现,例如溯因自然语言推理(aNLI),但差异正在缩小。2019年,人类的表现仅领先 9个百分点(aNLI)。截至 2021 年,这一差距已缩小到  1%。
  • 转向更通用的强化学习:在过去十年中,人工智能系统已经能够掌握一定限制条件下的强化学习任务。这要求系统最大限度地提高某项特定技能的表现,例如国际象棋。顶级国际象棋软件引擎现在比 Magnus Carlsen 的最高 ELO 分数高出 24%。然而,在过去两年,人工智能系统在新环境、更通用的强化学习任务上也提高了129%(Procgen) 。这一趋势预示着人工智能系统未来的发展可以学习更广泛地思考能力。
  • 人工智能变得更实惠、性能更高:自 2018 年以来,训练图像分类系统的成本降低了 63.6%,而训练次数提高了 94.4%。其他 任务也出现训练成本降低、但训练时间加快的趋势:推荐系统,物体检测和语言处理,并有利于更广泛的人工智能商业应用。
  • 机械臂正在变得更便宜:一项人工智能指数调查显示,机械臂的中位数价格在过去六年中下降了 4 倍——从2016 年每只手臂 50,000 美元下降到 2021 年的 12,845 美元。关于机器人的研究变得更容易获得,且负担得起。

2.3 计算机语言

    自然语言处理(NLP)是人工智能的一个子领域,其根源可以追溯到20世纪50年代。NLP涉及到对能够阅读、生成和推理有关自然语言的系统的研究。NLP从一套早期使用手写规则和统计方法的系统发展到一个现在结合了计算语言学、基于规则的建模、统计学习和深度学习的系统。

    本节介绍多个语言任务领域的进展,包括:(1)英语语言理解;(2)文本摘要;(3)自然语言推理;(4)情感分析;(5)机器翻译。在过去的十年里,自然语言处理的技术进步是显著的:采用深度神经网络风格的机器学习方法意味着许多人工智能系统现在可以比许多人类基线更好地执行复杂的语言任务。

目录

第二章. 人工智能模型性能

概要:

2.3 计算机语言

ENGLISH LANGUAGE UNDERSTANDING 英语语言理解

SuperGLUE

Stanford Question Answering Dataset (SQuAD)

Reading Comprehension Dataset Requiring Logical Reasoning (ReClor)

TEXT SUMMARIZATION 文本摘要

arXiv

PubMed

NATURAL LANGUAGE INFERENCE 自然语言推理

Stanford Natural Language Inference (SNLI)

Abductive Natural Language Inference (aNLI) 

SENTIMENT ANALYSIS 情感分析

SemEval 2014 Task 4 Sub Task 2

MACHINE TRANSLATION (MT) 机器翻译

WMT 2014, English-German and English-French

Number of Commercially Available MT Systems



ENGLISH LANGUAGE UNDERSTANDING 英语语言理解

英语的语言理解任务挑战了人工智能系统在不同语境下去理解英语,例如句子理解、YES/NO阅读理解、逻辑推理阅读理解等。

SuperGLUE

SuperGLUE是一个跟踪各语言任务技术进展的简单数字度量(如图2.3.1)。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Mango_Holi

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值