Problems of Current NLP Approaches读后感

最新推荐文章于 2024-09-19 20:42:18 发布

caohao2008

最新推荐文章于 2024-09-19 20:42:18 发布

阅读量935

点赞数

文章标签：语言自然语言处理编译器联想汇编编程

本文链接：https://blog.csdn.net/caohao2008/article/details/1654739

版权

前不久,刘挺老师给我们发了这篇台湾苏老师的slice,要我们好好研读,这篇是我读后的陋见,见笑了.

苏克毅老师的这篇ppt主要讲述的是NLP当前存在的问题和未来的发展方向。

其实，作为一个NLP的入门者，我对NLP当前的现状了解的都很少，但我仍可以从这些slice中看出苏老师对NLP当前存在问题的准确把握和精妙的见解。

下面是看完他的slice之后我的一些看法：

它指出了NLP的圣杯(Holy Grail，我觉得用的非常妙)是Natural Language Understanding.我非常赞同他。在NLU发展成熟后，机器就能”读懂”人类的语言，就可以实现对各种材料的自动处理，可以和人类交互了。可以自动处理一些信息，抽取一些信息，将这些信息进行统计和挖掘，得出新的规则。这不仅是NLP的一个里程碑，也是人工智能的一个里程碑。是NLP和人工智能走向成熟的一个标志。

当前计算机处理和理解自然语言，主要是通过人类的辅助，如使用规则系统，将一个一个的句型、句式进行分析处理，根据句子中出现的词和上下文来进行句子理解。或是使用统计模型，使用大量语料库来对该统计模型进行训练。然后用这些模型来进行处理。还有借助于实例等方法等。但由于语言的不确定性，这些方法很难作到100%的正确，虽然现在研究出了很多方法来改进这些方法，有的甚至大大提高了准确率，但最终能否完全解决问题，还有待发掘。

处理的难点就在于语言的随意性和非形式化性，各种各样的规则在语言中总有例外。正如刘挺老师所说的，计算机科学家关注的是大多数的语言现象。而语言学家关心的总是语言学中一些特例。这造成了两者之间的隔阂。按我的想法，让计算机科学家去处理大量的情况，让语言学家去研究那些少数的例外情况，然后把它作为规则加入到计算机科学家构建的系统中去不就可以了吗？但统计加规则这种方法已经广泛使用了。我也不会比这方面的研究开发人员聪明多少，估计这里面还是存在很多问题的，落实起来很有困难，那就已经是我现在知识所能及之外的事情了。

一个可以借鉴的例子就是程序设计语言。程序设计语言能够通过编译器很好的理解。而且随着程序设计语言之间由低级到高级：机器语言 à汇编语言 à过程语言 à面向对象语言，语言的语法越来越复杂。但这些语言都是可以通过若干有限个规则演化出来的，最终可分解归纳为那几个简单的规则中去。而自然语言不能用简单的几个规则来定义，甚至不能用有限的规则来定义，因为语言随着人类的发展还在不断地演变。我觉得有效缩短这两者（自然语言与程序设计语言）之间差距是将自然语言进行形式化整理。至于怎么整理，应该由计算机科学家和语言学家共同努力，甚至需要一位既是计算机大师，又是语言学大师的人出来统一。具体方法也无非是对句子根据上下文加入信息（指代，形容等），对句子进行纠错，甚至将句子用另外一种意思相同的形式表示以便于处理等。其中比较困难的一点就是对句子的错误处理。对于程序设计语言，如果写错了语句或是语句有歧义，编译器会要求编程者改正过来。而自然语言处理不能这样，它要有一定的容错能力。另外就是对不完整信息的处理，对于缺失上下文的语言，对于人来说，人可以结合自身知识，对这些信息进行补充或联想，包括猜想这些语言可能出现的场合和上下问等，还可能从这些语言中想出该语言的意思。而使用计算机来自动处理这些，怎样让计算机来通过联想等方法对缺失上下文的语言进行处理，仍然是个问题。（目前想到的是用基于实例的方法）