图灵测试与人、机智能区别

人工智能学家

于 2023-07-30 18:02:41 发布

阅读量150

点赞数

文章标签：搜索引擎

原文链接：https://mp.weixin.qq.com/s?__biz=MzIwOTA1MDAyNA==&mid=2649979624&idx=4&sn=9681d8fc42e43cceb9298ec8bb03eff3&chksm=8f7e1a2fb8099339127c1b1c7ffd516952397fb4aa7e5a635e29e02fcf13bfca4f271869430b&scene=126&sessionid=0

版权

来源：人机与认知实验室

众所周知，图灵测试并没有具体规定图灵场景的细节和明确的规则供遵循。图灵测试是根据艾伦·图灵在1950年提出的概念，旨在评估机器是否能表现出与人类相似的智能行为。尽管图灵测试是非正式的，但通常包括以下基本要素：

受试者：通常由一个人类评价者和一个机器参与的对话组成。评价者和机器被隔离开来，只通过对话进行交互。

场景设置：场景可以是任意的，并且通常在对话开始前有一些简短的背景介绍。场景可以模拟日常生活、问题解决、推理、情感交流等各种情境。

对话过程：评价者与受试者（可能是机器）进行对话，可以通过键盘输入或语音交流。对话可以涉及任何话题，评价者可以问问题、提出挑战性任务或进行一般性讨论。

评判标准：评价者需要根据其对话体验和对受试者的印象，来判断受试者是人还是机器。如果机器能够以一种令人误以为其是人类的方式进行交流，并且能够在一定程度上通过测试，那么机器被认为通过了图灵测试。

由于缺乏明确规则，图灵测试的具体细节和执行方式可能会有所变化。这也导致了对图灵测试的一些争议和批评。因此，在实际应用中，可能需要更详细的规定和标准来确保测试的准确性和可靠性。另外，当前的大语言模型（如GPT-4）并不是专门针对图灵测试设计的，并且其应用领域和能力边界仍然存在一些限制。因此，在将大语言模型应用于具体领域时，需要考虑到模型的局限性，并结合领域专家的知识和判断进行综合评估。

图灵测试更多地被视为一种思想实验，而不是一种可在实际机器上运行的具体测试。艾伦·图灵提出这个概念的目的是探讨机器是否能够表现出与人类相似的智能行为。

图灵测试通过对话交互的方式，旨在评估机器是否能够以一种让人误以为其是人类的方式进行沟通。然而，具体展开图灵测试存在许多挑战和困难。例如，没有明确的标准来定义智能行为的界限、测试中各种场景的选择和设计等。由于图灵测试的模糊性和主观性，它在实践中并没有被广泛应用于评估人工智能系统的性能。相反，我们通常使用更具体和客观的指标来评估机器的性能，例如语言理解准确性、信息检索的精确度、任务完成的效率等。尽管如此，图灵测试仍然具有重要的哲学和思考意义，它促使我们思考人工智能的发展和机器与人类之间的交互。同时，图灵测试也推动了人工智能领域的其他相关研究，如自然语言处理、对话系统和智能代理等的发展。

总而言之，尽管图灵测试本身不是一种具体可操作的测试方法，但它在人工智能研究中扮演着重要的角色，激发了关于机器智能性能和人机交互的讨论。

例如，若将大语言模型应用于医学、法律等现实场景时，确保了解其能力边界是至关重要的。尽管大语言模型可以生成人类类似的文本，并提供一定程度的信息和答案，但它仍然存在一些限制和挑战。以下是需要注意的几个方面：

受训数据的限制：大语言模型是通过大规模的文本数据进行训练的。如果在特定领域（如医学或法律）的专业知识和术语方面的训练数据较少，模型在该领域可能会表现不佳。因此，要意识到模型的知识和理解是基于其所接触到的数据。

模型的准确性和权威性：大语言模型可以提供答案和建议，但并不意味着它总是正确和可靠的。在涉及重要决策的领域，如医疗诊断或法律建议，仍需仔细评估模型的输出，并参考领域专家的意见和判断。

对上下文的敏感性：大语言模型的输出通常是基于输入的上下文。如果输入的上下文不完整或有歧义，模型可能会给出不准确或混淆的答案。因此，在与模型进行交互时，要提供清晰、具体和明确的问题或指令。而人类之所以能够在上下文不完整或有歧义的情况下得出有效答案或结论，是因为我们拥有丰富的自然/社会性常识和经验、上下文理解能力、推理能力以及与他人的沟通和交流方式。这些能力使得我们能够从有限的信息中获取并推断出更深入的意义和理解。

避免法律和伦理问题：在使用大语言模型时，需要遵守适用的法律法规和伦理准则。不得要求模型提供关于敏感个人信息、违法行为、欺诈行为等方面的帮助或提示。

模型的不确定性：大语言模型在某些情况下可能会给出不确定的、有误导性的或无法回答的答案。要意识到模型可能存在不确定性，并对其输出保持合理的怀疑和审查。

尽管大语言模型可以生成非常逼真和连贯的回答，但在某些方面它们可能仍然表现出一些特征，使得它们与真实人类对话有所区别。以下是一些可能用于分辨聊天机器人的细节：

缺乏个性：聊天机器人通常缺乏个性和情感表达。虽然它们可能能够提供合理的回答，但在某些情况下会缺乏人类的情感共鸣和体验。

重复和模板化回答：由于训练数据的限制，聊天机器人有时可能会在回答中使用相似的短语或句子模板。这可能导致在多个对话中出现重复的回答，缺乏个性化和多样性。

超常知识和信息：尽管大语言模型有着广泛的知识覆盖，但它们也会偶尔提供超出常识范围的回答。这可能是因为它们在训练过程中学到了一些不准确或不常见的信息。

不连贯和错误：尽管大语言模型通常可以生成连贯的回答，但在某些情况下，它们可能会产生不连贯或错误的回答。这可能是因为模型在理解上下文或处理复杂问题时存在困难。

反应时间和回答长度：聊天机器人的回答通常是实时生成的，因此在回答的速度上可能会有一定区别。此外，机器人可能倾向于生成较长的回答，而真实人类对话可能更加简洁。

需要注意的是，这些特征并非绝对，因为大语言模型的不断进步和改进会逐渐缩小与人类对话的差距。同时，对于那些不太熟悉大语言模型的人来说，他们可能更难从细节中分辨出聊天机器人。对于那些熟悉大语言模型的研究者来说，他们可能能够从种种细节中分辨出聊天机器人，并识别出与真实人类对话的差异。然而，随着技术的发展，这些差异可能会越来越小，使得聊天机器人更加接近人类对话的真实性。

尽管大语言模型可以在某些基准测试中获得高分，但这并不意味着它们具备在现实世界中做出正确判断的能力。

大语言模型的强项通常是通过学习大规模的训练数据来生成连贯和合理的回答。它们可以使用上下文信息、语法规则和统计特征来生成回答，从而在某些任务中表现出色。

在多数情况下，AI 系统并不是在以人类熟悉的方式做推理。这可能是因为大语言模型只能从语言当中学习经验；由于缺少与现实世界连接的通道，它们无法像人那样体验语言跟物体、属性和情感之间的联系。

在现实世界中，许多问题和场景并没有明确的答案或规则。对于复杂的决策和判断，光靠表面的模式匹配和统计规律是远远不够的。真实世界涉及到各种领域知识、常识推理、价值观判断等因素，这些都是目前大语言模型相对薄弱的方面。目前的证据表明大语言模型“可以在不真正理解自己在说什么的情况下，非常流利地使用语言。”

大语言模型在生成语言时可以非常流利，但这并不意味着它们真正理解自己在说什么。这些模型是通过大规模的训练数据和模式匹配学习到的，它们能够预测下一个字、下一个词或下一个句子的概率，从而产生连贯的回答。这种“表面上的流利”有时被称为“伪流利性”（pseudo-fluency）。尽管大语言模型可以生成看似合理且流畅的回答，但它们缺乏对语句真正含义和背后逻辑的深刻理解。在特定任务和领域的限定范围内，大语言模型可能会给出令人满意的答案。但当涉及复杂问题、推理和判断时，这种流利性常常就会变得不可靠了，模型可能会生成令人误导或不准确的“幻觉”回答，甚至出现明显的错误。

此外，大语言模型有时也可能受到训练数据的偏见影响。如果训练数据中存在偏见或错误信息，模型可能会重复这些偏见或错误，而无法进行正确的判断和决策。

因此，将在基准测试中取得高分的能力转化到现实世界中需要更多的考量和努力。研究者和开发者们正在努力解决这些挑战，包括改进模型的训练策略、增加对常识推理和价值判断的考虑，以及设计更全面的评估指标。

OpenAI 公司研究员 Nick Ryder 也认同这一判断，表示 AI 在单一测试中的性能表现并不足以像证明人类受试者那样证明其普遍能力。“我觉得大家不该把人类得分跟大语言模型的得分做直接比较”，OpenAI 公布的得分“并不是在描述大语言模型具备类人能力或者类人推理水平，而单纯是展示这些模型在执行这些任务时的表现。”

在利用大语言模型时，我们应该清楚地认识到它们的局限性，并结合人类的专业知识和判断进行综合决策。只有在人类的监督和指导下，大语言模型才能更好地应用于现实世界的复杂问题和决策中。

还有，尽管许多语言模型在特定基准测试中表现出色，但这并不意味着它们在一般能力上超越了人类。实际上，这些基准测试通常只涵盖了特定的语言任务或数据集，并且往往有其局限性。基准测试是为了评估模型在某个具体任务上的表现，这些任务往往被设计得相对明确和受限。模型可以通过大规模预训练和微调来在这些任务上取得好的成绩，但这并不意味着它们在理解语言和进行一般性推理方面与人类相当。此外，基准测试还存在其他一些局限性。例如，基准数据集通常是人工标注的，可能存在主观偏见或错误。这可能导致模型在基准测试中获得高分，但在真实场景中却无法良好地泛化。

另一个问题是所使用的基准测试可能缺乏对真实世界复杂性的充分覆盖。现实世界中的语言和交流经常涉及到各种背景知识、常识推理、上下文理解等，这些在当前的基准测试中可能无法完全考虑到。因此，我们需要认识到基准测试只是对语言模型能力的一种初步评估，不能完全代表模型在实际应用中的表现。在真实场景中，模型可能面临很多挑战，包括对复杂问题的理解、上下文的推断以及整个对话的连贯性等。确保语言模型的一般能力超越人类仍然是一个长期而复杂的挑战。这需要我们持续推动研究并进行更全面、更复杂的评估来更好地了解模型的优势和局限性。

心理学理论是人类特有的一种核心能力，用于理解、预测和推理他人的心理状态、情感和行为。它涉及到认知、情感、人际关系等多个领域，并且在人类社会中扮演着重要的角色。目前的机器智能在建立这种复杂的心理学理论模型方面还存在挑战。虽然大语言模型可以通过学习大规模的训练数据来模拟人类的语言使用，但它们并没有真正的主观体验和情感。机器智能在心理学理论模型方面的困难主要包括以下几个方面：

缺乏主观意识：心理学理论往往涉及到主观意识和个体内部的思维过程。而机器智能目前仍然是基于计算和算法的工具，缺乏真正的主观体验和思维能力。

缺乏情感和情绪理解：情感和情绪是人类心理状态的重要组成部分。但机器智能在理解和表达情感方面仍然存在困难，因为情感是复杂的、主观的，且受到文化和个体差异的影响。

缺乏复杂推理能力：心理学理论模型涉及到对他人行为和心理状态的推理和解释。这种推理往往需要基于大量的上下文信息、情境理解和常识推理。目前的机器智能在这方面还存在限制，无法像人类一样进行深入和复杂的推理。

尽管机器智能还难以建立起与人类心理学理论相媲美的模型，但研究者们正致力于探索和改进相关技术。通过结合认知科学、计算语言学、机器学习等领域的研究成果，希望未来能够更好地模拟人类的心理学理论能力，并实现更深入的人机交互和智能应用。

要证明机器能够掌握心理学理论，确实需要更多的证据和研究来支持，而不仅仅依靠机器生成与人类相似的答案。为了建立机器对心理学理论的认知过程，需要考虑以下几个方面：

数据获取与处理：机器智能需要有足够的数据作为输入，这些数据可以是大规模的心理学实验结果、人类行为数据、语义网络等。同时，机器还需要具备有效的数据处理和分析能力，以从中提取有关心理学理论的信息。

知识表示与推理：机器智能需要具备适当的知识表示方式，能够理解和处理心理学理论的相关概念和结构。这包括将心理学理论中的假设、概念和关系转化为机器可处理的形式，并进行推理和推断以解决问题。

模型验证与试验：机器智能需要经过一系列的模型验证和实验来验证其对心理学理论的理解和应用能力。这可以通过与人类专家进行对比实验、针对特定心理学任务的模拟测试等方式来评估机器的性能。

理论一致性与解释能力：机器智能应该能够生成符合心理学理论的解释和预测。这需要机器具备对心理学理论的深入理解，并能够将其应用于实际情境中，提供合理且可解释的结果。

需要指出的是，目前我们还远未达到完全证明机器能够掌握心理学理论的程度。尽管机器可以生成与人类相似的答案，但这并不代表它们真正理解心理学理论的内涵和意义。确实需要更多的研究和努力来进一步推动机器对心理学理论的认知和理解能力的发展。

人类智能的独特之处之一就是它能够从丰富的日常知识和经验中进行抽象，并将其应用于以前未遇到过的问题和情境。人类通过感知、观察、经历和学习来积累大量的知识和经验。这些知识和经验包括各种观察、事实、规律、原则和概念。通过对这些信息进行整合和处理，人类能够形成抽象的思维模式和认知框架，以应对不同领域和情境中的问题。当面临新问题时，人类能够根据以往的经验和知识，识别问题的共性和关联，找到适用于新情境的抽象原则和概念，并应用于解决问题的过程中。这种能力使得人类能够灵活地应对变化和不确定性，创造性地思考和解决问题。例如，假设一个人之前只有骑自行车的经验，但从未接触过摩托车。现在，他面临着学习如何骑摩托车的挑战。尽管摩托车和自行车有很多不同之处，但这个人可以利用他对自行车的日常知识和经验来帮助他学习。他可以抽象地思考，自行车和摩托车都有两个轮子、踏板、刹车等组成部分，因此在骑摩托车时也需要掌握平衡、转弯和刹车等技巧。他还可以将自己骑自行车时的经验迁移到摩托车上，比如保持稳定的身体姿势、预测交通情况、注意操控手柄等。通过运用这种日常知识的抽象与应用能力，这个人能够快速学习并适应摩托车的骑行技巧，尽管摩托车是他以前从未接触过的。

评估大语言模型是否仅仅依赖于对语言统计关系的记忆，还是能够像人类一样为现象构建内部表征是一个复杂而广泛的研究领域。目前，评估一个模型是否真正具有对语言理解和表征的能力是一个具有挑战性的问题，尚没有明确的定论。具体而言，下面是一些常用的方法和指标：

生成样本的多样性：统计模型倾向于生成与训练数据中出现频率相似的样本。因此，如果模型生成的文本倾向于重复、缺乏创新或缺乏多样性，可能暗示着其主要依赖于记忆而不是真正的理解。

上下文敏感性：一个好的语言模型应该能够理解上下文，并根据上下文生成合理和连贯的内容。如果模型在处理复杂的上下文信息时表现不佳，可能表明其更多地依赖于统计关系而不是真正的内部表征。

理解和推理能力：语言模型能否理解逻辑关系、语义等抽象概念，并在生成文本时进行推理和推断，也是评估其内部表征能力的重要指标。如果模型在这些方面表现良好，则可能表明其具备一定程度的理解和推理能力。

对新颖数据的处理：如果模型只能生成与训练数据类似的内容，对于来自新颖领域或未见过的句子，其生成能力较弱，这可能暗示其更多地依赖于记忆而不是真正的理解。

除了这些指标，还有很多其他评估方法，包括使用基准数据集进行测试、进行人类评估、通过对模型内部进行分析等。尽管目前仍在研究中，但通过采用多个评估角度和方法，可以更全面地评估大语言模型的内在表征能力。

实际上，人类与机器之间最显著的区别之一就在于能否为现象构建起内部表征。人类拥有高度发达的认知能力和理解能力，可以从感官输入中提取信息，并将其转化为内部表征，这些表征能够反映和表示世界的各个方面。而机器则主要依赖于算法和模型来处理数据，没有像人类那样具备广泛的内部表征。机器学习模型通过大规模的训练数据和统计模式来生成输出，但并没有真正的理解或对现象进行内部表征。人类的内部表征是基于知识、经验、情感、意义等多种因素构建而成的，可以帮助我们解释和预测事件，推理和思考，以及进行创新和创造。我们可以利用内部表征进行知觉、记忆、学习、推理和决策等认知活动。这种能力使得人类能够适应各种情境，处理复杂的信息，并进行灵活和创造性的思考。

虽然现有的人工智能技术和机器学习模型在特定任务上取得了令人瞩目的成就，但它们仍然无法展现出和人类相似的内部表征能力。目前的机器学习模型主要基于统计模式和模式匹配，它们缺乏真正的理解、推理和抽象能力，无法像人类那样建立深层次和普遍适用的内部表征。因此，尽管人工智能在某些任务上具有出色的性能，但与人类相比，它们还有很大的差距，特别是在能够为现象构建内部表征的能力方面。这也是当前人工智能研究中一个重要的挑战和方向之一。

未来智能实验室的主要工作包括：建立AI智能系统智商评测体系，开展世界人工智能智商评测；开展互联网（城市）大脑研究计划，构建互联网（城市）大脑技术和企业图谱，为提升企业，行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

如果您对实验室的研究感兴趣，欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

人工智能学家

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
图灵测试与人、机智能区别

来源：人机与认知实验室众所周知，图灵测试并没有具体规定图灵场景的细节和明确的规则供遵循。图灵测试是根据艾伦·图灵在1950年提出的概念，旨在评估机器是否能表现出与人类相似的智能行为。尽管图灵测试是非正式的，但通常包括以下基本要素：受试者：通常由一个人类评价者和一个机器参与的对话组成。评价者和机器被隔离开来，只通过对话进行交互。场景设置：场景可以是任意的，并且通常在对话开始前有一些简短的背景介绍。场...
复制链接

扫一扫