自然语言处理概论
该篇文章主要是对自然语言处理这门课程的一个简单大致的介绍,包括NLP概念、发展历程、应用和任务基本流程四个内容,文章的最后还介绍了如何创建一个Python的虚拟环境。文章内容整体较为简单,属于NLP的入门介绍,后续的文章会沿着基本流程的六个步骤依次展开。
概念
所谓自然语言,即人们日常使用的语言。自然语言处理就是指用计算机来处理人类的语言。
每种动物都有自己的交流方式,狗汪汪叫,猫咪喵喵叫,人类通过语言来交流,计算机也有自己的交流方式——数字信息。不同的物种之间是没有办法实现交流互通的,甚至人类不同国家、民族之间也难以直接交流,往往需要借助翻译。既然人类之间的语言可以翻译,那计算机作为人类创造的产物,是否也能通过某种翻译来实现人机之间的交流。
众所周知,现有的计算机、手机大多数功能还是靠借助手动操作来实现,而这些大多数人看似简单的操作对于老年人而言却是难以跨越的鸿沟,所以他们近乎被现在的智能时代给抛弃了。如果人机之间可以借助某种翻译技术,使得人类可以用自己的语言来操控计算机,那么老年人也可以更好地融入时代发展之中!
这种翻译技术便是自然语言处理技术,简称NLP。
NLP是人类和机器之间沟通的桥梁,它研究的是能实现人与计算机之间进行有效通信的各种理论和方法。它是计算机科学领域和人工智能领域的一个重要研究方向,是一门融语言学、计算机科学、数学和统计学于一体的科学。其具体表现形式包括机器翻译、文本摘要、文本分类、文本校对、信息提取、语言合成、语音识别等。
NLP机制涉及两个流程:自然语言理解和自然语言生成。自然语言理解研究的是计算机如何理解自然语言文本中包含的意义;自然语言生成研究的是计算机如何生成自然语言文本表达给定的意图、思想等。
发展历程
1936年阿兰·图灵首次提出了“图灵机”的概念,为计算机的诞生提供了理论基础。十年以后,也就是1946年,世界上第一台通用电子计算机诞生,而此时英国人布思和美国人韦弗就提出了利用计算机进行机器翻译。从这个时间点算起,NLP技术已经经历了70多年的发展历程,大致分为“萌芽期”、“发展期”和“繁荣期”3个阶段。
萌芽期(1960年以前)
1、1946年,第一台电子计算机诞生,也标志着NLP技术的起源。
2、1948年,香农把离散马尔可夫过程的概率模型应用于自然语言和计算机语言的研究,导致了基于概率的NLP技术的产生。
3、1956年,乔姆斯基提出了上下文无关语法,并将其运用到NLP中,开启了基于规则的NLP技术的产生。
发展期(1960年-1999年)
20世级60年代期间,很多国家和组织对机器翻译都投入了大量的人力、物力和财力。然而在实际开发过程中,出现了各种各样的问题,并且这些问题的复杂程度远远超出了原来的预期。这致使很多人对其发展失去了信心,自然语言处理的研究进入了一个发展低谷期。但尽管如此,一些发达国家的研究员依旧继续着相关研究,也诞生了一些显著的成果。如:70年代,基于隐马尔科夫