自然语言处理基础技术
自然语言处理基础技术
自然语言的基础技术包括词汇、短语、句子和篇章级别的表示,以及分词、句法分析和语义分析等。
词法分析的主要任务是词性标注和词义标注。词性标注就是在给定句子中判断每个词的语法范畴,确定其词性并进行标注。解决兼类词和确定未登录词的词性问题是标注的重点。词义标注的重点就是解决如何确定多义词在具体语境中的义项问题。标注过程中,通常是先确定语境,再明确词义,方法和词性标注类似。
判断句子的句法结构和组成句子的各成分,明确它们之间的相互关系是句法分析的主要任务。句法分析通常有完全句法分析和浅层句法分析两种,完全句法分析是通过一系列的句法分析过程最终得到一个句子的完整的句法树,存在两个难点,一是词性歧义;二是搜索空间太大,通常是句子中词的个数n的指数级。浅层句法分析又叫部分句法分析或语块分析,只要求识别出句子中某些结构相对简单的成分如动词短语、非递归的名词短语等,这些结构被称为语块。一般来说,浅层语法分析会完成语块的识别和分析,语块之间依存关系的分析两个任务,其中语块的识别和分析是浅层语法分析的主要任务。
语义分析是指根据句子的句法结构和句子中每个实词的词义推导出来能够反映这个句子意义的某种形式化表示,即将人类能够理解的自然语言转化为计算机能够理解的形式语言。