计算机语言学笔记(七)有限状态技术和形态分析

本文介绍了计算机语言学中的形态分析,主要探讨了屈折语的词构成规则,如英语和德语的词缀变化。形态分析关注如何利用计算机将屈折语词汇分解为语素,并简述了有限状态自动机(FSA)的基本概念,包括DFSA和NFSA。同时,提到了有限状态转换机(FST)在识别、生成和翻译中的作用,以及构建形态分析器所需的资源如词典和正字规则。
摘要由CSDN通过智能技术生成

7 有限状态技术和形态分析

7.1 形态分析简介

形态学研究屈折语中词的构成规则。
英语、德语等时屈折语。
汉语是孤立语。
日语是黏着语。
词通常是语素组成,语素是语言中最小的意义单位。

英语中的语素
语素可以分成两大类:词干(提供词的主要意义)和词缀(提供词的附加意义,修改词干义或改变词的语法功能)
语素构成词的方法:
1.屈折变化:词干+词缀形成的词通常与原词干同属一类,常用来使词具备数、时态等功能。
2.派生词:词干+词缀形成的词通常与原词干不属一类,词义通常与原词干有联系(有时难以预料)

屈折变化:名词单复数,名词所有格,形容词副词比较级,最高级,动词时态。
派生词:动词形容词名词化,从名词动词派生出形容词。
形态分析研究如何利用计算机把屈折语中的词分解成语素。

7.2 形态分析基本技术

有限状态技术
有限状态自动机(FSA)
有限状态自动机的确定性(DFSA/NFSA)
有限状态自动机和语言
有限状态自动机和正规文法(等价)
有限状态自动机和正则表达式(等价)
有限状态自动机作为正则语言的识别装置和生成装置。

DFSA和NFSA
NFSA的不确定性:同一状态,输入同一个字母可转移到多个状态。
NFSA可以转换成DFSA,所以NFSA不比DFSA能力强。
NFS

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值