NLP自然语言处理（一）——概述篇

最新推荐文章于 2024-08-01 11:48:17 发布

斜杠青年//

最新推荐文章于 2024-08-01 11:48:17 发布

阅读量1.1k

点赞数

分类专栏： NLP

本文链接：https://blog.csdn.net/qq_38796548/article/details/105774841

版权

NLP 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

文章目录

1. 基本概念
2. 历史过程
3. 基本结构组成
4. 未来发展

1. 基本概念

语言（Language）是用于传递信息的表示方法、约定和规则的集合，是人类进行通信的自然媒介。语言由语句构成，语句又由词语构成，语句和词语经过一定的语法规则组成语言。
在这里插入图片描述
自然语言处理NLP（Natural Language Processing )是计算机科学领域以及人工智能的重要研究方向，研究语言能力和语言应用的表示模型，用来研究计算机来处理、理解以及运用人类语言，达到计算机能够理解人类语言的含义，实现人机交互（通讯），简单来说就是计算机通过NLP达到与人类通讯的目的。

根据已总结的知识，计算机对自然语言的理解与处理一般要经过以下4个步骤：

从语言学的角度提出自然语言处理的问题和理论。
把需要研究的语言学问题加以形式化，使之能够以一定的数学形式或者接近于数学形式严格的描述出来。
把严格的数学形式用算法表示，使之能够在计算上形式化。
在计算机上编写对应的程序代码实现算法，即实现自然语言处理

2. 历史过程

NLP以计算机语言学为基础作为一门新兴的边缘学科，经历过三个阶段：

萌芽期：1956年前，马尔可夫、奥涅金、香农，经验主义。1956年乔姆斯基“形式语言理论”，不适合自然语言，提出了转换生成语法。基于规则的理性主义。
快速发展期：1988年~1999年，基于统计、基于实例、基于规则的语料库技术融和。1994年互联网的商业化，对NLP的迫切需求。
爆发期：21世纪以来，以Hinton为代表的深度学习算法的出现，特征学习方法在NLP中取得很大进展。

在NLP发展的历史中有4项非常重要的基础性研究，可以说这4项基础性研究是作为基石提供理论依据和方法供NLP研究者们学习和应用，它们是：

马尔可夫Markov关于马尔可夫模型的研究
图灵Turing关于算法计算模型的研究
香农Shannon关于概率和信息论模型的研究
乔姆斯基Chomsky关于形式语言理论的研究

以下是4项基础性研究的简要介绍：

在1913年，俄罗斯著名数学家A.Markov（马尔可夫）把俄罗斯诗人普希金的叙事长诗《欧根· 奥涅金》中的连续字母加以分类，把元音记为 V，把辅音记为 C，然后以连续字母为统计单元进行计算，研究元音和辅音字母出现概率之间的相互影响，提出了马尔可夫链的思想，该思想发展成为在计算语言学中广为使用的马尔可夫模型（Markov model），是当代计算语言学最重要的理论支柱之一。
在计算机出现以前，英国数学家A. M. Turing（图灵）预见到未来的计算机将会对自然语言研究提出新的问题，图灵在1936年发表过一篇题为《论可计算数及其在判定问题中的应用》的论文，并提出著名的图灵机”数学模型，可制造一种十分简单但运算能力极强的计算装置，用来计算所有能想象得到的可计算函数。
“图灵测试”由计算机、被测试的人和主持试验人组成。计算机和被测试的人分别在两个不同的房间里。测试过程由主持人提问，由计算机和被测试的人分别做出回答。观测者能通过电传打字机与机器和人联系（避免要求机器模拟人外貌和声音）。被测人在回答问题时尽可能表明他是一个“真正的”人，而计算机也将尽可能逼真的模仿人的思维方式和思维过程。如果试验主持人听取他们各自的答案后，分辨不清哪个是人回答的，哪个是机器回答的，则可以认为该计算机具有了智能。
1948年，美国学者Shannon（香农）使用离散马尔可夫过程的概率模型来描述语言的自动机，香农另一个贡献是创立的“信息论”通过诸如通信信道或声学语音这样的媒介传输语言的行为比喻为“噪声信道” 或者解码
1956年，美国语言学家N. Chomsky（乔姆斯基）从香农的工作吸取了有限状态马尔可夫过程的思想，首先把有限状态自动机作为一种工具来刻画语言的语法，并且把有限状态语言定义为由有限状态语法生成的语言。其攥写的的《句法结构》被认为是20世纪理论语言学研究上最伟大的贡献。

3. 基本结构组成

NLP由两部分组成：

自然语言理解NLU（Natural Language Understanding )：

一个综合性系统工程，涉及：音系学（语言中发音的系统化组织）、词态学（单词构成及相互关系）、句法学（文本语法正确性）、语义学（文本含义）、语用学（文本目的），理解语言内容并生成结构化数据。
NLU包括以下部分：

在这里插入图片描述
分词、词性标注、句法分词、语义分析分别建立模型，联合使用。

自然语言生成NLG(（Natural Language Generating )：

从结构化数据中以读取的方式自动生成文本，包括：文本规划（完成结构化数据中的基础内容规划）、语句规划（从结构化数据中组合语句来表达信息流）、实现（生成通顺的语句表达文本），组成结构如下：
在这里插入图片描述

NLP能够应用的领域如下：
在这里插入图片描述

4. 未来发展

趋势1：语义表示——从符号表示到分布表示
直到现在，NLP的语义表示是由词汇和符号表示的，但符号容易产生多种不同的含义，影响文本内容识别，未来采用词汇与词汇组合的方法，把它表示为连续、低维、稠密的向量的话，就可以计算不同层次的语言单元之间的相似度，这种方法可以被深度学习神经网络使用。
趋势2：学习模式——从浅层学习到深度学习
从浅层到深层的学习模式中，浅层是分步骤走的，可能每一步都用了深度学习的方法，实际上各个步骤是串接起来的，而深度学习是直接一步到位的端到端。
趋势3：NLP平台化——从封闭走向开放
先前由于大多数研究人员不轻易分享研究成果，如程序代码或是数据，导致了封闭性；随着越来越开放的心态和环境，NLP领域提供的开放平台越来越多，它的门槛也越来越降低。
趋势4：语言知识——从人工构建到自动构建
以前NLP采用更多的是人工构建知识框架，如今慢慢开始使用神经网络自动提取知识并构建知识图谱。
趋势5：对话机器人——从通用到场景化
对话机器人应用场景越来越广泛，不仅有主流的购物引导、问题解决，还适用于如医学解决、化工问题等领域。
趋势6：文本理解与推理——从浅层分析向深度理解迈进
未来的文本理解与推理不再停留于表层，只能够做一些基本工作，会利用神经网络进行文本的深度刨析得到较好的文本摘要。
趋势7：文本情感分析——从事实性文本到情感文本
多年以前，很多人都在做新闻领域的事实性文本，而如今，搞情感文本分析的似乎更受群众欢迎，这一块这在商业和政府舆情上也都有很好地应用。
趋势8：社会媒体处理——从传统媒体到社交媒体
在社会媒体处理上，从传统媒体到社交媒体的过渡过程中，人们会用社交媒体做电影票房的预测，做股票的预测等等。
趋势9：文本生成——从规范文本到自由文本
文本生成这两年很火，从生成古诗词到生成新闻报道到再到写作文。这方面的研究价值是很大的，它的趋势是从生成规范性的文本到生成自由文本。
趋势10：NLP+行业——与领域深度结合，为行业创造价值
现在越来越多像银行、电器、医药、司法、教育、金融等的各个领域对NLP的需求都非常多。