有段时间没写文章了,今天简要普及一下自然语言处理中的句法分析,你懂的。闲言少叙,直表正题,我是宋鹏举。
+
句法分析是自然语言处理的核心技术,是对语言进行深层理解的基石。
句法分析工作包括两方面的内容,一是确定语言的语法体系,即对语言中合法句子的语法结构给予形式化定义;另一方面是句法分析技术,即根据给定的语法提示,自动推导出句子的语法结构,分析句子所包含的句法单位和这些句法单位之间的关系。句法分析主要难点是歧义,自然语言的一个重要特点是存在大量歧义现象,歧义的产生会导致句法分析的候选结果随着句子长度的增加而急剧增加。
句法分析方法简单的分成两类,基于规则的方法和基于统计的方法。基于规则的方法此处就不多提了,这里主要是讲基于统计的方法。
+
语言中合法句子的语法结构形式化定义:如何对合法句子的语法结构进行定义呢?主要是采用人工标注的方法,对语料库中的每个句子进行标注,进而汇集成语法树库(句子采用树状结构进行标注)。目前主要的树库有:
由于采用的模型不同,语法主要分成了短语结构语法和依存语法两种。
+
PCFG (Probabilistic Context Free Grammar,概率上下文无关文法,也称短语结构语法):是把统计方法引入上下文无关语法规则系统而形成的语法规则系统。此种方法符合自然语言处理的基本思路:原则一、以形式语言处理之方法,唯有被形式化,才能被计算机计算;原则二、辅以概率侧度模型,不同于形式语言,