自然语言理解,什么是“理解”?

以前看过一本讲西方哲学史的书,书上有一个笑话,就是一个哲学家提出了一个问题:什么是人?然后其他人回答说身上没毛且长两条腿的动物,第二天哲学家就抓了一只拔了毛的鸡,说:看这就是你说的 “人”

这个笑话反映出一个问题,当问 “什么是人” 的时候,我们很难给出一个解释或完备的(语言)描述 “什么是人”,且该解释不会蕴含其他非人的事物。

甚至有些概念我们似乎又确切的知道它是什么,但是却无法描述它,且越基础的越难解释,如:什么是 1,什么是2,什么是苹果,什么是太阳?当然我们可以描述:太阳是天上那个红色的,发光的物体; 我们可以递归的继续追问下去,什么是天上,什么是红色?那么我们会发现这种解释最后会无穷无尽或者收敛到一个无法描述的点,你会发现用语言去描述语言概念是一个无穷无尽递归的文字游戏

还有一些经验性的东西,是根本无法用语言具体描述的,如骑自行车,当别人问:“你怎么骑车” 的时候其实是没有办法描述这样一个问题的,你当然可以将骑车的过程说出来:坐上自行车,手按把手,两脚一蹬; 但是这些描述都是不精确,不完整的,如方向怎么控制,平衡怎么控制这些经验已经形成了一种自然的反应,而语言是无法具体描述的,所以同样当问什么是“骑车”的时候我们确切的知道但是无法解释或具体描述

而语言对概念的描述本质是:表示一种概念与另一种概念关系的存在与否; 如太阳是红色的,太阳会发光,本质在描述:太阳红色之间存在关联关系,太阳发光存在关联关系,但是我们没有办法用语言描述太阳,发光,红色,即这些在哲学上所谓的本体(Ontology),后文会详细阐述语言能描述什么

概念的可判别问题

还是以 “什么是人” 为例。当问 “什么是人” 的时候,我们其实是很难用语言描述的,但是给一张人的图片或一段视频的时候,我们知道里面的对象是人,似乎我们又确切知道人是什么 ?

描述一个问题总是困难的,而验证一个问题却往往更容易

比如让你完备的描述乔丹长什么样,这个是很困难的,但是某个人给你一张照片让你判断是否是乔丹,这个更容易(NP = P ?)

所以显然 “某个人” 这样一个概念(Concept)是一个可判别问题,即我们给一张图片让你判断是否是某人,是一个确定性问题(在机器学习中是一个分类或识别问题),同样,当定义智能的时候,我们也很难回答什么是智能,但是当给我们一个模型或算法(后面统称为模型)的时候,我们能够通过各种测试判断其到底是否是具有智能,即这也是一个可判别问题

所以当我们谈论 “什么是概念A“(为了方便理解这里将A指代为Apple) 时候,我们完全可以将这种解释问题变换为可判别问题,即给定该概念的数据让其判断是否是概念Apple,当能正确判断这个概念是Apple且不会判断为其他概念,我们可以认为其知道:什么是Apple

由上,那么当我们给定概念 Apple 的任意图像或语音等等信息,那么某人Man能够通过这些信息判断其为概念 Apple (且不会判断为其他概念),是否意味着 Man 知道什么是概念 Apple ? 或者更进一步,使用一个逆向过程,即给定概念Apple,要求 Man 给出或制造出 Apple 的任意图像或语音等等信息,我们能判断这些信息是关于概念Apple的,且满足自恰性,即这些信息 Man 仍然判断为概念 Apple,那么是否意味着 Man 知道什么是概念 Apple ?

个人认为是的,如果不这样我们如何知道:你是否理解什么是苹果,什么是太阳?我们无法得知,同理,这里的Man完全可以更改为模型Model,那么这就意味着模型Model,理解概念Apple

此外,还有一个存在于自然语言中非常重要的概念是操作(Operation or Action),其实就是我们经常所说的动词,比如:我想买一本书(I want to buy a book),这里的 buy 就是动词,对应的就是我们对这个世界的操作,同样的这可以通过以上方式如给予一段视频来验证 buy 这个概念(其实就是CV里面经常提及的动作识别,Action Recognition),但是当它变为指令的时候 buy 这个词语就需要操作的配合,如我们要验证机器是否理解这个概念 buy,我们给予机器指令 Buy me a book,假设机器知道概念 me 及 book,如果机器通过一系列Operations去完成这个buy的动作,且我们(通过视觉感知)验证这个动作是buy这个概念,那么显然机器理解buy这个概念,否则能认为机器理解 buy 这个概念吗?这里的操作其实和上面的逆向过程同理,是通过这样一个过程来完成对概念 buy 的重现(Reproduce)

有的人会说:我知道什么是骑自行车啊,但是我不会骑。所以在这里这个重现会受到阻碍,所以我们这里定义两种理解的形式:(1)弱理解,即没有逆向过程去重现概念,仅通过感知正确决策(2)强理解,不仅通过感知正确判断,且通过操作重现

如果上面的论断成立的话,关于理解,尤其是自然语言理解问题,将不仅仅是语言的问题,语言只是承载概念的符号,而真正的语义其实存在于其他模态数据的感知中及对这个世界状态的操作中

简单的图灵测试

和中文屋实验差不多,假设封闭的屋子里面有一台机器和一个人,屋外连接一个摄像头到屋内,屋内的人通过摄像头获取图像数据,且屋外的人只能通过摄像头将物体的图片传到屋内,这个时候屋内的人和机器共同作答(该物体的名称),并随机选一个答案,显示在屋外的显示器上面,屋外的人通过无限次判断是否为机器给出的答案,如果屋外的人猜对的概率趋向于0.5,那么说明机器像人一样理解了这些物体。

当谈到计算机的时候,如上的图灵测试,计算机在深度学习兴起以前是很难通过这样一个测试的,计算机面对图像语音等高维问题,更多的还是通过简单的特征提取器完成对物体等的识别,至少在人脸识别这个问题上根本无法大规模商用,现在已经基本接近或超过人类了,各种人脸识别公司,如雨后春笋般不断创立,本质上还是技术的突破带来的

所以,计算机以前在面对这样的问题的时候,我们是容易判断这样一个问题:机器是否理解这样一个概念。某种程度来说,机器和我们感知的世界之间是弱联系。操作世界物体这样一个问题,计算机也只是在特定的场合,如机器人等领域才有的,而从 感知 - 决策 - 操作 -感知 这样一个闭环,目前并没有大规模的形成,这也是为什么计算机无法理解我们所处的世界的原因(或者叫人类所理解的世界)。这个问题其实和人一样,人为什么要有手有脚,有视觉,听觉等器官呢?我们知道大自然的演化一定是选择适合生存在这个世界的东西,那么说明这些器官的存在是必要的,同理,计算机要理解我们所理解的世界,那么这样的传感器,机械臂等也是必要的,这个其实和数学概念上的同构类似,如果不同构我们如何去映射这样一个问题?就像给先天没有眼睛的人描述太阳的颜色一样,他是无法理解什么是颜色的

感知与操作缺失对理解的影响

实际上不管别人怎样,我们很难感同身受,并非我们缺乏同理心,而是我们缺乏这种“相同的认知”,或者叫感受到这个问题上知识的同构。

同样,如果一个人天生是盲人,那么他本身会缺少感知世界图像的能力,那么他所理解的颜色就和普通人不同,这种不同就是不同构带来的。如果一个人天生没有味觉,那么他理解的甜味也和普通人不同,就像他没有办法理解我们所感受的甜味一样,我们也无法理解他所谓的甜味。

操作也是同理,不同是如果一个人感知系统是健全的,虽然行动不便,但是也能理解操作过程,但是无法重现这个过程。也和普通人一样,如果这个人不会骑自行车,他也暂时不能重现骑自行车这个过程,仅仅对这个过程的理解我们上面叫弱理解。

所以互相理解的前提是同构,不管是知识还是感知或是操作,行动能力,这也是计算机无法真正理解人类的原因,我们缺乏这种同构。不过随着传感器,电机等各种感知系统,运动系统的发展,这种外部的同构也将会被解决。

自然语言描述的边界

凡是不可说的,我们就应该保持沉默 – 维特根斯坦

事物的本体是不能被语言描述的,对于太阳这个本体,普通人都能理解,但是实际上我们是无法用语言真正描述太阳的,很多人会说:太阳不就是天生那个圆圆的发光发热的火球吗。那么我们会同样问,”天“是什么,“圆”是什么,”光“是什么,这么一直追问下去,我们得到的将是一环扣一环的物体的描述,就算我们能完成这种描述的闭环,但我们脑子里面那个理解的简单的太阳的概念去哪了?所以这种描述本身就不是我们理解太阳的方式,所以我们理解太阳这个物体的载体本身并不是语言或完全是语言。

感觉是不能被描述的,
经验是不能被描述的,

计算机语言更容易被计算机解析?

为什么在程序语言的理解上,如:C语言编译器比较容易将C语言解析为机器语言(二进制指令集), 而在自然语言上,现在几乎所有的parser似乎都很难将自然语言转换为机器语言,Why? 看起来好像的确C这种语言是Context-Free的,而自然语言是Context-Based; 其实编译器将C语言解析为机器语言这个过程并非理解了C语言,而只是一种翻译,而且C语言到机器语言几乎可以构造一个一一对应的映射,即同构或者至少是同态的; 在自然语言中,中文-英文的互相翻译才类似于编译器的角色,这也是为什么机器翻译要比自然语言理解相对成功的原因,但是机器翻译要做到 ”信雅达“ 仍然无法脱离 ”理解“,主要还是中文-英文的词语并非一一对应,仅为局部同构,且Context相关与广泛的歧义性,只是机器翻译的下界比较低

这里假设两门自然语言是同构的,那么简单来说A语言与B语言词汇与句子等等一一对应,机器翻译本质上就是符号映射(这也是为什么有的语言与其他语言翻译准确率很高的原因,而与其他语言翻译准确率低可能就是因为局部同构程度不同),这个其实和中文屋实验一致,这种直接的映射并非是理解而只是简单符号变换或替换,如:Apple可以被任意符号表示,苹果、アップル 、Apfel …,而真正的理解是 Apple 背后的那个一致的内容

一直更新。。。

这篇关于自然语言理解的文章很有意思, 自然语言理解,根本不是你想象

参考
  1. Extending Machine Language Models towardHuman-Level Language Understanding

  2. Climbing towards NLU:On Meaning, Form, and Understanding in the Age of Data

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值