华为李航 NLP 有 5 个基本问题，深度学习有4个做得很好

最新推荐文章于 2022-12-29 16:14:13 发布

阿拉蕾二

最新推荐文章于 2022-12-29 16:14:13 发布

阅读量511

点赞数 1

本文链接：https://blog.csdn.net/qq_44906416/article/details/89412856

版权

对于自然语言理解，有两种定义。第一种是计算机能够将所说的语言映射到计算机内部表示；另一种是基于行为的，你说了一句话，计算机做出了相应行为，就认为计算机理解了自然语言。后者的定义，更广为采用。

为什么自然语言理解很难？其本质原因是语言是一种复杂的现象。自然语言有5个重要特点，使得计算机实现自然语言处理很困难：

语言是不完全有规律的，规律是错综复杂的。有一定的规律，也有很多例外。因为语言是经过上万年的时间发明的，这一过程类似于建立维基百科。因此，一定会出现功能冗余、逻辑不一致等现象。但是语言依旧有一定的规律，若不遵循一定的规范，交流会比较困难；
语言是可以组合的。语言的重要特点是能够将词语组合起来形成句子，能够组成复杂的语言表达；
语言是一个开放的集合。我们可以任意地发明创造一些新的表达。比如，微信中“潜水”的表达就是一种比喻。一旦形成之后，大家都会使用，形成固定说法。语言本质的发明创造就是通过比喻扩展出来的；
语言需要联系到实践知识；
语言的使用要基于环境。在人与人之间的互动中被使用。如果在外语的语言环境里去学习外语，人们就会学习得非常快，理解得非常深。
这些现象都说明，在计算机里去实现与人一样的语言使用能力是一件非常具有挑战性的事情。首先，语言的不完全规律性和组合性，就意味着如果在目前的计算机上去实现，会产生组合爆炸；还有，如果需要语言做比喻，去联系到实践环境，就意味着要做全局的、穷举的计算。如果通过现代计算机来做，非常复杂，几乎不太可能。所以，如果想让计算机像人一样使用语言，原理上需要完全不同的、与人脑更接近的计算机体系架构。

其本质原因是，目前在计算机上去实现东西一定需要数学模型。换句话说，计算机能够做的事情要通过数学形式化。但是，到目前为止，语言的使用还不清楚是否能够用数学模型去刻画。人工智能的终极挑战就是自然语言理解。现实当中，不能因为自然语言理解非常困难就放弃。我们还是希望能够使计算机越来越智能化，能够部分使用语言。因此，就形成了所谓自然语言处理这一领域。我们叫自然语言处理，而不是自然语言理解，因为真正的理解是太难了。

自然语言处理做的第一件事情就是把问题简化。比如，知识问答中，问姚明身高是多少？朋友告诉你是2米26。这是人与人之间的知识问答。那么，这其中有哪些步骤呢？首先是听，然后去理解问题，然后去做一定的推理，然后再去做信息检索，最后判断怎么去做回答，整个过程相当复杂。我们现在做自然语言处理时，也做这种知识问答，包括有名的IBM的Watson，其整个步骤也是简化了自然语言处理的过程。一般而言，就是这几个步骤，先分析一下问句，接着去检索相关的知识或者信息，然后产生答案。

目前，所有的自然语言处理的问题都可以分类成为五大统计自然语言处理的方法或者模型，即分类、匹配、翻译、结构预测，马尔可夫决策过程。各种各样的自然语言处理的应用，都可以模型化为这五大基本问题，基本能够涵盖自然语言处理相当一部分或者大部分的技术。主要采用统计机器学习的方法来解决。第一是分类，就是你给我一个字符串，我给你一个标签，这个字符串可以是一个文本，一句话或者其他的自然语言单元；其次是匹配，两个字符串，两句话或者两段文章去做一个匹配，判断这两个字符串的相关度是多少；第三就是翻译，即更广义的翻译或者转换，把一个字符串转换成另外一个字符串；第四是结构预测，即找到字符串里面的一定结构；第五是马可夫决策过程，在处理一些事情的时候有很多状态，基于现在的状态，来决定采取什么样的行动，然后去判断下一个状态。我们也可以采用这样的模型，去刻画自然语言处理的一些任务。

分类主要有文本分类和情感分类，匹配主要有搜索、问题回答、对话（主要是单轮对话）；翻译主要有机器翻译，语音识别，手写识别，单轮对话；结构预测主要有专门识别，词性标注，句法分析，文本的语义分析；马可夫决策过程可以用于多轮对话。我们可以看到，自然语言处理里面有很多任务，在现实中我们已经开始使用最基本这五种最基本的模型它都去可以去刻画的。

语言处理，在一定程度上需要考虑技术上界和性能下界的关系。现在的自然语言处理，最本质是用数据驱动的方法去模拟人，通过人工智能闭环去逼近人的语言使用能力。但是，这种技术并没有真正实现人的语言理解机制。可能会有这样的情况，这个技术的准确率（绿线）画了一个上界。比如，语音识别的上届是95%，我们希望不断把这个技术做好，比如通过人工智能闭环，更好的深度学习方法，从而使得上界不断提高。但是，不可能一下子达到百分之百对，或者达到完全与人一样的水平。每个应用，对于下界的要求是不一样的。比如，在葡萄牙问路，对方也不会英语，我也不会葡萄牙语，交流非常困难，在这种环境下我其实就是听懂几个单词，让机器翻译给我翻译几个单词就行了，对性能的要求其实是比较低的，不需要去翻译一大段话。我们可以看到，不同的应用，用户对使用性能的要求不同，如果下界达到这个水平，用户就用了。再比如互联网搜索中排序第一的准确率不高，60%多-70%多，大家往往觉得，互联网搜索引擎已经达到要求了。当然因为搜索的时候，通过排序展示给用户多个结果，用户可以去逐个去看，一定程度上解决一些问题，这时候对性能要求下界相对就比较低。如果，现在的技术上届达到了用户要求的下界，就能够使用。所以，哪些自然语言处理的技术未来能够起飞，能够真正实用化，就可以通过这种关系来看。还是要看具体的应用的场景。在一些特定场景下，准确率达到99%都不行。我们相信，自然语言处理的技术会不断提高，但是是不是都能够达到我们每一个应用要求的性能的下界，就不好说了，要看未来的发展了。这是自然语言处理技术整个发展情况。

下面，给大家一起看一下我们自然语言处理领域里面都有哪些技术，有代表性的技术都大概达到什么样的水平，都是什么样的一些基础。假设大家对深度学习有一定的了解，如果这方面的知识还不够也没关系，过后你可以去再去看书看论文，去了解一些相关的技术情况。

刚才，我介绍到站在一个很抽象的角度来看，自然语言处理就是五个问题。如果用各种方法包括深度学习把这五个问题做好了，就能够把自然语言做得很好。现实当中，我们就是通过深度学习，达到自然语言处理技术比较好的水平。

首先，问答系统有很多，包括 IBM 的 Watson 也是一个问答系统，有大量的知识或者信息放在知识库。典型的办法就是把问答用FAQ索引起来，与搜索引擎相似，如果来了一个新问题，有一大堆已经索引好的FAQ，然后去做一个检索（字符上的匹配），之后逐个去做匹配，判断问句与回答的匹配如何。往往匹配的模型有多个，再去将候补做一个排序，把最有可能的答案排在前面，往往就取第一个作为答案返回给用户。

这里面牵扯到几个技术，我们在在线的时候要做匹配和排序，现在最先进的技术都是用机器学习，用深度学习技术。就是把问句和回答的可能的候选，用向量来表示，问句的每一个单词都可以用向量来表示。每一个词的语义都可以用一个实数值向量赖表示，问句和候补都是实数值向量的序列。然后，用一个二维的卷积神经网络来判断两句话在语义上是不是相关，候选是否是很好的答案。通过二维卷积神经网络，可以判断两句话里面哪一些词语、词组是可以相互对应，最后可以做一个判断这两句话是不是相关的。整个模型的学习通过大量的数据、句对，去训练。如果卷积神经网络的参数学好，就可以判断任何给定的两句话是不是能够构成一轮问答