词法分析
1.语言的分类
传统语言学根据词的形态结构把语言分为三大类:
分析型语言
黏着性语言
曲折型语言
1.1分析型语言
词基本没有专门表示语法意义的附加成分
形态变化少
语法关系靠词序、虚词来表示
如:汉语、藏语
1.2黏着型语言
词内有专门表示语法意义的附加成分,一 个附加成分表达一种语法意义,一种意义 也基本上由一个附加成分来表达
词根或词干跟附加成分的结合不紧密
如:日语
1.3曲折型语言
用词的形态变化来表示语法关系,一个形态成分可以表示若干种不同的语法意义
词根或词干跟词的附加成分结合得很紧密, 往往不容易截然分开
如:英语、德语、法语等
简单比较(汉语与英语的比较)
汉语:词与词紧密相连,没有明显的分界标志
英语:用空格隔开,无需分词
汉语的词形态变化少,靠词序或虚词来表示, 而英语用词的形态变化来表示语法关系
所以对汉语进行词的自动切分 对英语进行词的形态还原
2.汉语的自动分词
根据GB-13715规范:
汉语信息处理
• 用计算机对汉语的音、形、义等信息进行的处理。
词
• 最小的能独立运用的语言单位
词组
• 由两个或两个以上的词,按一定的语法规则组成,表 达一定意义的语言单位
分词单位
• 汉语信息处理使用的、具有确定的语义或语法功能的 基本单位。它包括本规范的规则限定的词和词组。
汉语分词
• 从信息处理需要出发、按照特定的规范,对汉语按分 词单位进行划分的过程。