本文介绍了通测试(Tong Test),这是一种评价人工通用智能(AGI)的新方法,它强调在动态实体化的物理和社会互动(DEPSI)环境中评估AI的价值观和能力多维层次,并提供了一个实践路径,用于构建包含无限任务的实体平台,在此平台上可以现场评估AI算法并与人类互动。整个研究旨在为AGI的发展提供一个标准化、量化且客观的评价体系,并为AI算法的发展提供理论指导。
1 具身动态环境中的AGI评估
在能够模拟真实世界复杂性和动态变化的虚拟或现实环境中,对人工智能系统的一般智能水平进行测试与衡量。这种评估方式超越了传统任务导向型测试,关注AI系统在无限任务生成、自我驱动力、价值取向、因果理解及具身体验等方面的能力,尤其强调在与环境和社会互动过程中展现出来的智能现象的根本特征,如价值-因果-行为链。通测试(Tong Test)作为一个评价体系被提议出来,用以评估AGI在动态具身环境中的表现,旨在推动AGI技术发展的同时实现标准化、量化和客观化的评估。
-
1.经典的人工智能评测:过去的人工智能评测主要分为两大类,一类是基于人类观察的人机区分测试,例如经典的图灵测试;另一类是任务导向的问题评测,包括基于数据集和环境的评测。然而,这些评测方法在应用于AGI时显现出局限性。
-
2.图灵测试:图灵测试是最早的人机区分测试之一,它要求机器能在对话中模仿人类的行为,使得人类无法区分其与真人之间的差别。然而,随着AGI的发展,仅靠图灵测试已不足以全面评估AGI的能力。
-
3.通测试的提出:为了解决上述局限,提出了通测试这一概念,它是一个系统性的AGI评测体系,不仅关注AI的能力维度,还引入了价值维度的考量。通测试旨在通过一个具备动态实体化物理和社会互动(DEPSI)特性的虚拟平台来评估AGI。
2 通测试(Tong Test)
-
1.动态嵌入式物理和社会互动(DEPSI):通测试强调在动态的物理和社会环境中进行评价,这意味着AGI不仅要理解物理世界的变化,还要在社会互动中表现出智能行为。
-
2.无限任务生成:通测试采用组合图形模型(即“解析图”)作为知识表示形式,能够表达给定场景的空间、时间和因果关系。基于此,它定义了一个“流畅空间”,其中包含场景属性的时间变量,从而允许生成无限数量的任务。
-
3.自我驱动的任务创造:除了完成任务,AGI还需要能够在没有明确指令的情况下自我驱动地创建新任务,这反映了AI系统在不同情境下的适应能力。
-
4.价值对齐:通测试还包括对AI模型的价值观评估,确保AI的行为与人类社会的价值观相一致。
-
5.因果理解:通测试要求AI模型展示出对因果关系的理解,这是AGI智能的一个重要方面,对于解决复杂问题至关重要。
-
6.具身化:AGI必须在具身化的环境中操作,这意味着它必须有能力与环境进行互动,并且这种互动是持续的、动态的。
-
7.多层次的AGI里程碑:通测试通过一系列虚拟环境中的互动,定义了AGI发展的多个里程碑级别,允许对AGI的多维能力和价值观进行量化。
3 结语
文章提出了通测试(Tong Test),一种在动态实体环境中基于能力和价值导向的评估系统,用于评价人工通用智能(AGI)的表现,并探讨了无限任务生成、自我驱动任务创建、价值对齐、因果理解及实体化等AGI系统的关键特征。
论文题目: The Tong Test: Evaluating Artificial General Intelligence Through Dynamic Embodied Physical and Social Interactions
论文链接: https://www.sciencedirect.com/science/article/pii/S209580992300293X
PS: 欢迎大家扫码关注公众号_,我们一起在AI的世界中探索前行,期待共同进步!