7 有限状态技术和形态分析
7.1 形态分析简介
形态学研究屈折语中词的构成规则。
英语、德语等时屈折语。
汉语是孤立语。
日语是黏着语。
词通常是语素组成,语素是语言中最小的意义单位。
英语中的语素
语素可以分成两大类:词干(提供词的主要意义)和词缀(提供词的附加意义,修改词干义或改变词的语法功能)
语素构成词的方法:
1.屈折变化:词干+词缀形成的词通常与原词干同属一类,常用来使词具备数、时态等功能。
2.派生词:词干+词缀形成的词通常与原词干不属一类,词义通常与原词干有联系(有时难以预料)
屈折变化:名词单复数,名词所有格,形容词副词比较级,最高级,动词时态。
派生词:动词形容词名词化,从名词动词派生出形容词。
形态分析研究如何利用计算机把屈折语中的词分解成语素。
7.2 形态分析基本技术
有限状态技术
有限状态自动机(FSA)
有限状态自动机的确定性(DFSA/NFSA)
有限状态自动机和语言
有限状态自动机和正规文法(等价)
有限状态自动机和正则表达式(等价)
有限状态自动机作为正则语言的识别装置和生成装置。
DFSA和NFSA
NFSA的不确定性:同一状态,输入同一个字母可转移到多个状态。
NFSA可以转换成DFSA,所以NFSA不比DFSA能力强。
NFS