计算机语言史话论文,【论文节选】自然语言处理发展历史。

最新推荐文章于 2021-08-19 16:32:32 发布

binma123

最新推荐文章于 2021-08-19 16:32:32 发布

阅读量458

点赞数

文章标签：计算机语言史话论文

说实话看完文章有点失望，作者带有一贯的学术吹嘘风，就像吹嘘云计算，物联网等等。谈到现状，只字不提问题，一句话“一旦自然语言处理的研究获得成功，那么机器将能够进行思考，人类将得到继工业革命后的又一次解放。不同的是工业革命解放了人类的身体，而自然语言处理将解放人类的大脑。”您在写YY小说啊？

没有认识到未来需要解决的问题，就不可能走下去。期待未来真有大牛研究出来吧。

下面是节选的历史。没什么实际意义，就是给自己扫盲而已。

1.什么是自然语言处理

自然语言处理(Natural Language Processing, NLP)是一种对自然语言信息进行处理的技术[4]，从语言学的角度来说，自然语言处理也叫计算语言学(Computational Linguistics)。自然语言处理包括自然语言理解(Natural Language Understanding, NLU)和自然语言生成(Natural Language Generation, NLG)两部分。自然语言理解是指对自然语言的内容和意图的深层把握。在人工智能领域中，自然语言理解特指计算机对自然语言的内容和意图的深层把握。自然语言生成是指从非自然语言输入到自然语言输出的处理。自然语言理解与自然语言生成互为逆过程[5]。图1简单地表示了自然语言处理、自然语言理解和自然语言生成三者之间的关系。其中，语言A和语言B可以是相同的语言，也可以是不同的语言。当语言A和语言B是相同的语言时，整个过程表示为聊天式交流；而当语言A和语言B是不同的语言时，整个过程则表示为机器翻译式交流。

2.发展概况

自然语言处理的发展大致经历了4个阶段：1956年以前的萌芽期；1957-1970年的快速发展期；1971 -1993年的低谷的发展期和1994年至今的复苏融合期。

2.1萌芽期(1956年以前)

1956年以前，可以看作自然语言处理的基础研究阶段。一方面，人类文明经过了几千年的发展，积累了大量的数学、语言学和物理学知识。这些知识不仅是计算机诞生的必要条件，同时也是自然语言处理的理论基础。另一方面，阿兰·图灵在1936年首次提出了“图灵机”的概念。“图灵机”作为计算机的理论基础，促使了1946年电子计算机的诞生。而电子计算机的诞生又为机器翻译和随后的自然语言处理提供了物质基础。

由于来自机器翻译的社会需求，这一时期也进行了许多自然语言处理的基础研究。1948年Shannon把离散马尔可夫过程的概率模型应用于描述语言的自动机。接着，他又把热力学中“熵”(entropy)的概念引用于语言处理的概率算法中。上世纪50年代初，Kleene研究了有限自动机和正则表达式。1956年，Chomsky又提出了上下文无关语法，并把它运用到自然语言处理中。他们的工作直接引起了基于规则和基于概率这两种不同的自然语言处理技术的产生。而这两种不同的自然语言处理方法，又引发了数十年有关基于规则方法和基于概率方法孰优孰劣的争执。

另外，这一时期还取得了一些令人瞩目的研究成果。比如，1946年Köenig进行了关于声谱的研究。1952年Bell实验室语音识别系统的研究。1956年人工智能的诞生为自然语言处理翻开了新的篇章。这些研究成果在后来的数十年中逐步与自然语言处理中的其他技术相结合。这种结合既丰富了自然语言处理的技术手段，同时也拓宽了自然语言处理的社会应用面。

2.2快速发展期(1957-1970)

自然语言处理在这一时期很快融入了人工智能的研究领域中。由于有基于规则和基于概率这两种不同方法的存在，自然语言处理的研究在这一时期分为了两大阵营。一个是基于规则方法的符号派(symbolic)，另一个是采用概率方法的随机派(stochastic)。

这一时期，两种方法的研究都取得了长足的发展。从50年代中期开始到60年代中期，以Chomsky为代表的符号派学者开始了形式语言理论和生成句法的研究，60年代末又进行了形式逻辑系统的研究。而随机派学者采用基于贝叶斯方法的统计学研究方法，在这一时期也取得了很大的进步。但由于在人工智能领域中，这一时期多数学者注重研究推理和逻辑问题，只有少数来自统计学专业和电子专业的学者在研究基于概率的统计方法和神经网络，所

以，在这一时期中，基于规则方法的研究势头明显强于基于概率方法的研究势头。

这一时期的重要研究成果包括1959年宾夕法尼亚大学研制成功的TDAP系统，布朗美国英语语料库的建立等。1967年美国心理学家Neisser提出认知心理学的概念，直接把自然语言处理与人类的认知联系起来了。

2.3低速的发展期(1971 -1993)

随着研究的深入，由于人们看到基于自然语言处理的应用并不能在短时间内得到解决，而一连串的新问题又不断地涌现，于是，许多人对自然语言处理的研究丧失了信心。从70年代开始，自然语言处理的研究进入了低谷时期。

但尽管如此，一些发达国家的研究人员依旧不依不挠地继续着他们的研究。由于他们的出色工作，自然语言处理在这一低谷时期同样取得了一些成果。70年代，基于隐马尔可夫模型(Hidden Markov Model, HMM)的统计方法在语音识别领域获得成功。80年代初，话语分析(Discourse Analysis)也取得了重大进展。之后，由于自然语言处理研究者对于过去的研究进行了反思，有限状态模型和经验主义研究方法也开始复苏。

2.4复苏融合期(1994年至今)

90年代中期以后，有两件事从根本上促进了自然语言处理研究的复苏与发展。一件事是90年代中期以来，计算机的速度和存储量大幅增加，为自然语言处理改善了物质基础，使得语音和语言处理的商品化开发成为可能；另一件事是1994年Internet商业化和同期网络技术的发展使得基于自然语言的信息检索和信息抽取的需求变得更加突出。这样，自然语言处理的社会需求更加迫切，自然语言处理的应用面也更加宽广，自然语言处理不再局限于机器翻译、语音控制等早期研究领域了。

从90年代末到21世纪初，人们逐渐认识到，仅用基于规则的方法或仅用基于统计的方法都是无法成功进行自然语言处理的。基于统计、基于实例和基于规则的语料库技术在这一时期开始蓬勃发展，各种处理技术开始融合，自然语言处理的研究又开始兴旺起来。