数据集比算法重要
本文翻译自:https://www.edge.org/response-detail/26587
所有版权归原作者所有,我为了学习,仅做翻译。
也许今天最重要的消息是,数据集才可能是人类水平人工智能发展的关键限制因素,而不是算法。
1967年,在人工智能领域刚刚起步的时候,两位创始人就有一个著名的预言:解决计算机视觉问题,只需要一个夏天就够了。现在,差不多半个世纪过去了,机器学习软件的性能终于可以在视觉任务和其他各种重大挑战上达到人类的水平。到底是什么让人工智能革命花了这么长时间?
回顾一下过去30年来最为公众所熟知的人工智能进步的时间表,我们可以得出一个有争议的解释:也许许多重大的人工智能突破实际上都受到高质量训练数据集的限制,而不是算法的进步。例如:
- 1994年,人类自发语音识别的实现依赖于10年前首次发表的隐马尔可夫模型算法的变体,但使用的数据集是《华尔街日报》的口头文章和三年前才提供的其他文本。
- 1997年,当IBM的“深蓝”击败加里·卡斯帕罗夫成为世界顶级棋手时,其核心NegaScout规划算法已有14年历史,而其70万个大师级棋局的关键数据集(被称为“扩展本”)只有6年的历史。
- 2005年的谷歌软件是基于17年前发布的一种统计机器翻译算法的变体,在阿拉伯语和中文到英语的翻译方面取得了突破性的成绩,但使用的数据集中有超过1.8万亿个来自谷歌网站和同年收集的新闻页面。
- 2011年,IBM的沃森成为了世界Jeopardy!大赛的冠军,他使用了20年前发布的混合专家算法的变体,但使用了维基百科、维基百科、维基引文和古腾堡项目的860万份文档的数据集。
- 2014年,谷歌的GoogLeNet软件使用了25年前提出的卷积神经网络算法的变体,在对象分类方面取得了接近人类水平的性能,在大约150万个标记图像和1000个对象类别的ImageNet语料库上训练,但这一语料库是在四年前首次提供的。
- 最后,在2015年,Google DeepMind宣布,它的软件通过使用23年前发布的Q-learning算法的变体从视频中学习通用控制,从而在玩29款Atari游戏方面实现了与人类水平的平等,但这种变体是在两年前才提供的50多个阿塔里游戏的街机学习环境数据集上训练出来的。
综合考虑到这些进展,关键算法提出与相应改进之间的平均间隔时间约为18年,而关键数据集可用性与相应改进之间的平均运行时间则不到3年,大约快6倍。这表明数据集可能是这些进展的限制因素。特别是,人们可能会假设,人工智能突破背后的关键算法往往是潜在的,只需要从现有文献中挖掘出大量、高质量的数据集,然后针对当前可用的硬件进行优化。当然,在研究领域的悲剧中,注意力、资金和职业发展在历史上更多地和算法联系在一起,而不是数据集的进步。
如果想法正确,那么这个假设可能会影响到人工智能在未来的基础性应用。最重要的是,优先培养高质量的训练数据集可能会使人工智能突破比单纯的算法进步有一个数量级的加速。例如,我们可能已经拥有了算法和硬件,只要我们用正确的写作、考试和会话数据集训练机器,就能在几年内完成人类水平的长篇作文创作、完成标准化的人类考试,甚至通过图灵测试。此外,确保人工智能友好性这一新生问题可以通过关注数据集而不是算法友好性来解决,这是一种可能更简单的方法。
虽然新算法因结束了上一个人工智能的冬天而获得了很大的公众赞誉,但真正的消息可能是,优先培育新的数据集和围绕它们的研究对于延长目前的人工智能之夏至关重要。

本文探讨了在人工智能发展中,数据集的重要性可能超过了算法。从历史案例中可以看出,许多重大突破都伴随着高质量训练数据集的出现,而非算法的革新。优先发展数据集可能会加速人工智能的进展,比如在写作、考试和对话等方面实现人类水平的表现。同时,数据集的质量对确保人工智能的友好性也起着关键作用。
1万+

被折叠的 条评论
为什么被折叠?



