成分句法分析 & 依存句法分析 Parsing 知识图谱

最新推荐文章于 2025-03-10 23:29:58 发布

APTX___Yellow

最新推荐文章于 2025-03-10 23:29:58 发布

阅读量7.8k

点赞数 15

分类专栏：自然语言处理文章标签：自然语言处理

本文链接：https://blog.csdn.net/APTX___Yellow/article/details/107889941

版权

文章目录

句法分析 (Parsing, Syntactic Analysis) 是自然语言处理（以下都简称 NLP）领域最核心的技术之一，旨在分析一个句子的语法结构、成分和词语之间的依存关系，是语法校验、语义解释、对话理解、机器翻译等应用的基础。

句法分析一般会分为成分句法分析 (Constituency Parsing) 与依存句法分析 (Dependency Parsing) ，借助下图可以清晰地看出两者区别：

图1 成分与依存句法分析产生的语法树的对比[1]

前者基于词语结构的文法，后者通过词语间的语法关系的文法。通俗理解就是，前者是从一个句子、分解为若干个词语组、最后到分解到一个单词，建立语法结构分析；后者是通过词语之间的语言学联系，建立语法结构分析。

下面将分别详述两种句法分析的经典算法（第一种内容较多）

一、成分句法分析

1. 上下文无关文法

Context-Free Grammar (以下简称 CFG)，是描述计算机程序语言和自然语言非常有效的语法。本质上，CFG 是描述语言语法结构的一组形式规则。对于程序语言，这种语法很适用，但我们都知道，人类使用的自然语言，是上下文有关的。那么为什么要用这种不符合现实的语法呢？

以我的理解，因为 NLP 本质上还是用计算机语言去处理自然语言，必须基于机器能懂的语法去扩展。很多编程语言都是 CFG。当然用上下文有关文法去处理也可以，但这里面涉及到程序语言设计的复杂度、可扩展性、处理效率等因素，是一个综合权衡的结果。

那么，接下来就看看 CFG 在数学上的定义。通常可被定义为四个要素：

G={N, T, R, S}

非终结符 (Non-terminal) 集合 N。在 NLP 中一般为词性 (Part-of-Speech) 的集合，如名词、动词、形容词等；

终结符 (Terminal) 集合 T。在 NLP 中一般为一个词汇表；

推导规则 (Rules of Productions) 集合 R。形式为 A → β，其中 A 必须为单独一个非终结符，而 β 可以由非终结符或/与终结符自由组合而成，β ∈ (N ∪ T)*

起始符号 S，S 属于非终结符。

最终得出的语法结构分析的形式有多种，最常见的是语法树，下面举一个具体的例子：
图2 CFG 句子分析的简单例子