作者简介:李航,华为技术有限公司诺亚方舟实验室主任。主要研究方向为信息检索、自然语言处理、机器学习等。
本文经李航博士授权发布,未经作者允许不得转载。
欢迎人工智能领域技术投稿、约稿、给文章纠错,请发送邮件至heyc@csdn.net
人类的语言具有什么特性?下面是几位最权威学者的看法。
语言是草根现象,它像是维基百科,聚集了数以十万计的人的贡献。当人们要找到更好的表达自己思想方式的时候,就发明了术语、俚语、新说法,其中一部分积累到语言中,这就是我们得到语言的过程。
如果语法没有递归结构,那么它将变得不可接受的复杂。因为它有了递归的工具,所以它能够产生无穷多的句子。
我们通常的概念系统的大部分都具有比喻性。我们的思考方式,我们所经历的,我们每天做的,都与比喻有关。
当一个人听到或看到一句话的时候,他使用自己所有的知识和智能去理解。这不仅包括语法,也包括他的词汇知识、上下文知识,更重要的,是对相关事物的理解。
语言看来是人的认知向外界环境扩展的核心手段。语言的进化也许就是为了扩展我们的认知与外界环境的积极交互。
总结起来,不完全规则性、递归性、比喻性、知识关联性、交互性是人类语言的主要特点。这些特性密切关联,体现了语言的本质。上述学者对这些语言特性的研究作出了卓越贡献,他们的论述是对这些特性的最佳诠释。
本文从语言的特性出发,讨论为什么让计算机理解人类语言(自然语言)是极其困难的,提出自然语言处理研究应该采取的策略。
为什么自然语言理解很难?
自然语言理解
你说一句话,如何判断别人(或者计算机)是否真正理解了你的意思?这是一个难解的问题。到目前为止,自然语言理解主要有两个定义,一个是基于表示的,一个是基于行为的。对于前者,如果你说“哈利·波特”,别人把它联系到了大脑中的哈利·波特的概念(表示),那么就认为他理解了你的意思。而对于后者,如果你说“给我拿一杯茶来”,别人真的按你说的做了(行为),就认为他理解了你的意思(图1)。
现在的人工智能研究中,人们开始倾向于采用后者的定义,因为这样更容易评价任务驱动、端到端的语言理解系统的能力。
语言的特性
下面结合语言学、认知科学、脑科学的最新研究成果,对语言的主要特性进行介绍。
不完全规则性
语言具有一定规范,语言的规范可以用语法来描述,但是,几乎所有的语法规则都存在例外。语法规则中一定有逻辑不一致、功能冗余的现象。正如语言学家爱德华·萨丕尔(Edward Sapir)所说,“所有语法都有漏洞(all grammars leak)”。这是为什么?
其中一个重要原因是,语言不是一个人发明的,甚至不是一组人发明的,而是成千上万人经过成千上万年的时间不断建立起来的,而且在不断演化,这个过程跟人们构建维基百科的过程非常相似。这是认知学家平克等人的观点[1,2],也被越来越多的人接受。
语言的基本单元是词汇和语法规则。为了顺畅地交流,需要人们对