华为诺亚方舟实验室主任李航:迎接自然语言处理新时代

作者简介:李航,华为技术有限公司诺亚方舟实验室主任。主要研究方向为信息检索、自然语言处理、机器学习等。
本文经李航博士授权发布,未经作者允许不得转载。
欢迎人工智能领域技术投稿、约稿、给文章纠错,请发送邮件至heyc@csdn.net

人类的语言具有什么特性?下面是几位最权威学者的看法。

语言是草根现象,它像是维基百科,聚集了数以十万计的人的贡献。当人们要找到更好的表达自己思想方式的时候,就发明了术语、俚语、新说法,其中一部分积累到语言中,这就是我们得到语言的过程。

——史蒂文·平克(Steven Pinker)

如果语法没有递归结构,那么它将变得不可接受的复杂。因为它有了递归的工具,所以它能够产生无穷多的句子。

——诺姆·乔姆斯基(Noam Chomsky)

我们通常的概念系统的大部分都具有比喻性。我们的思考方式,我们所经历的,我们每天做的,都与比喻有关。

——乔治·雷可夫(George Lakoff)

当一个人听到或看到一句话的时候,他使用自己所有的知识和智能去理解。这不仅包括语法,也包括他的词汇知识、上下文知识,更重要的,是对相关事物的理解。

——特里·威诺格拉德(Terry Winograd)

语言看来是人的认知向外界环境扩展的核心手段。语言的进化也许就是为了扩展我们的认知与外界环境的积极交互。

——安迪·克拉克(Andy Clark)

总结起来,不完全规则性、递归性、比喻性、知识关联性、交互性是人类语言的主要特点。这些特性密切关联,体现了语言的本质。上述学者对这些语言特性的研究作出了卓越贡献,他们的论述是对这些特性的最佳诠释。

本文从语言的特性出发,讨论为什么让计算机理解人类语言(自然语言)是极其困难的,提出自然语言处理研究应该采取的策略。


为什么自然语言理解很难?

自然语言理解

你说一句话,如何判断别人(或者计算机)是否真正理解了你的意思?这是一个难解的问题。到目前为止,自然语言理解主要有两个定义,一个是基于表示的,一个是基于行为的。对于前者,如果你说“哈利·波特”,别人把它联系到了大脑中的哈利·波特的概念(表示),那么就认为他理解了你的意思。而对于后者,如果你说“给我拿一杯茶来”,别人真的按你说的做了(行为),就认为他理解了你的意思(图1)。

图片描述

图1 人通过语言给出命令,机器人若能正确执行,就认为它可以“理解”语言

现在的人工智能研究中,人们开始倾向于采用后者的定义,因为这样更容易评价任务驱动、端到端的语言理解系统的能力。

语言的特性

下面结合语言学、认知科学、脑科学的最新研究成果,对语言的主要特性进行介绍。

不完全规则性

语言具有一定规范,语言的规范可以用语法来描述,但是,几乎所有的语法规则都存在例外。语法规则中一定有逻辑不一致、功能冗余的现象。正如语言学家爱德华·萨丕尔(Edward Sapir)所说,“所有语法都有漏洞(all grammars leak)”。这是为什么?

其中一个重要原因是,语言不是一个人发明的,甚至不是一组人发明的,而是成千上万人经过成千上万年的时间不断建立起来的,而且在不断演化,这个过程跟人们构建维基百科的过程非常相似。这是认知学家平克等人的观点[1,2],也被越来越多的人接受。

语言的基本单元是词汇和语法规则。为了顺畅地交流,需要人们对

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值