这个带着头戴相机的宝宝，竟然成了教AI如何学习语言的小小老师-CSDN博客

本文链接：https://blog.csdn.net/2301_79342058/article/details/136034333

研究发现，即使使用类似婴儿接触的小数据集，AI模型也能成功地进行词汇学习。纽约大学的研究人员通过分析孩子日常生活的视觉和声音记录，提出了一种可能改进AI学习方式的新方法，使其更接近人类的学习过程。

摘要由CSDN通过智能技术生成

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

即使是目前最先进的大型语言模型，在学习能力上也远远比不上人类婴儿。为了能够输出勉强过得去的英语，ChatGPT必须接受包含数百万甚至数万亿单词的大型数据集训练。相比之下，孩子们接触到的数据量只是其中的一小部分，但到了三岁时，他们已经能够以相当复杂的方式进行交流了。

纽约大学的一个研究小组好奇，AI是否能够像婴儿那样学习。如果给AI模型一个远小于常规数据集的数据集——即一个正在学说话的孩子所经历的视觉和声音体验——它能做些什么呢？

结果证明，AI模型做了很多。它成功地将单词与它们所代表的物体匹配了起来。“即使是在这孩子经验的一小部分数据中，也足以进行真正的词汇学习，”纽约大学的计算认知科学家Brenden Lake说，他是这项研究的作者之一。这项今天发表在《科学》杂志上的工作，不仅提供了婴儿学习的见解，还可能导致更好的AI模型。

在这个实验中，研究人员依赖于由一名住在澳大利亚阿德莱德附近的孩子所佩戴的头盔相机拍摄的61小时视频。这名孩子，Sam，从六个月大开始，断断续续地佩戴这个相机一年半的时间，直到他两岁多一点。相机捕捉到了Sam所关注的事物，这些记录大约占他清醒时间的1%。它记录了Sam的两只猫、他的父母、他的婴儿床和玩具、他的房子、他的餐点等等。“这个数据集是独一无二的，”Lake说，“这是我们有史以来对单个孩子可接触到的最好的窗口。”

为了训练模型，Lake和他的同事们使用了60万个视频帧，与Sam的父母或房间里其他人在图像捕捉时所说的短语配对——总共有37,500个“话语”。有时候，单词和物体是匹配的。有时候，则不是。例如，在一幅静止画面中，Sam看着一个形状分类器，而一位父母说：“你喜欢那根绳子。”在另一个画面中，一个成人的手遮住了一些积木，而一位父母说：“你也想要那些积木。”

研究团队给模型提供了两个线索。当物体和单词一起出现时，这可能意味着它们之间可能有联系。但当一个物体和一个单词没有一起出现时，这意味着它们可能不匹配。“所以我们模型内部就有了这种拉近和推开的动作，”纽约大学的计算认知科学家Wai Keen Vong说，他也是这项研究的作者之一。“然后我们希望，在数据中有足够多的实例，当父母说‘球’这个词时，孩子正在看一个球，”他说。

将单词与它们所代表的物体匹配起来可能看起来是一项简单的任务，但实际上并非如此。为了让你感受到问题的范围，想象一下一个有小孩的家庭的客厅。它有所有正常的客厅家具，但也有孩子的杂物。地板上散落着玩具。咖啡桌上散落着蜡笔。窗台上有一个零食杯，椅子上有洗好的衣服。如果一个小孩听到“球”这个词，它可能指的是一个球。但它也可能指的是任何其他的玩具，或者沙发，或者一条裤子，或者一个物体的形状，或者它的颜色，或者一天中的某个时间。“对于任何一个词，都有无限可能的含义，”Lake说。

这个问题是如此难以解决，以至于一些发展心理学家认为，儿童必须天生就具有对语言工作方式的理解，才能如此迅速地学会它。但这项研究表明，即使没有那种天生的能力，语言的某些部分也是可以从一组非常小的经验中学到的，斯基德莫尔大学的发展心理学家Jess Sullivan说，她是收集Sam头盔相机数据的团队的一部分，但没有参与这项新研究。“这确实改变了我的世界观。”

但Sullivan指出，能够将单词与它们所代表的物体匹配，虽然是一个困难的学习问题，但这只是构成语言的一部分。还有一些规则决定了单词如何组合在一起。你的狗可能知道“球”或“散步”的单词，但这并不意味着它能理解英语。而且，婴儿可能拥有的对语言的任何天生能力可能超出了词汇。它可能影响他们如何在世界上移动，或者他们关注什么，或者他们如何对语言做出反应。“我不认为如果婴儿没有创建出神经网络正在学习的数据集，这项研究就会成功，”她说。

Lake和他的同事们的下一步是试图弄清楚他们需要什么，才能使模型的学习更接近儿童早期的语言学习。“还有更多的工作要做，以尝试获得一个具有完全两岁孩子般能力的模型，”他说。这可能意味着提供更多的数据。Lake的孩子，现在18个月大，是下一批提供数据的孩子之一。她每周佩戴头盔相机几个小时。或许模型需要关注父母的目光，或者需要对物体的坚固性有所感知——这是孩子们直觉上就能把握的东西。创建能够更像儿童那样学习的模型将帮助研究人员更好地理解人类的学习和发展。

能够捕捉到人类学习语言方式的AI模型可能会在学习上更加高效；它们可能更像人类，而不是像语言学家诺姆·乔姆斯基及其同事们曾经描述的大型语言模型那样，“一个笨重的统计模式匹配引擎”。“AI系统仍然脆弱，缺乏常识，”负责管理资助Lake团队的美国政府国防高级研究计划局项目的Howard Shrobe说。但能够像孩子那样学习的AI可能能够理解含义，对新情况做出反应，并从新的经验中学习。目标是使AI更接近于人类智能。