进行统计自然语言处理系统梳理,学习资料《统计自然语言处理.宗成庆》。
一、自动分词
词,词是最小的能够独立运用的语言单位。
自动分词问题由来。中文(还有日语、越南语、藏语等)的文本不像西方屈折语的文本,词与词之间没有空格之类的标注来显示指示词的边界,因此,自动分词成了文本处理的首要基础性工作。
汉语自动分词的基本问题。1,分词规范问题:一方面单字词与词素的界定,另一方面是词与短语的界定。2,歧义划分问题:交集型歧义,如“结合成”,可划分为“结合|成”或“结|合成”; 组合型歧义,如“起身”,可以分开“起|身”,也可以不分开。3,未登录词问题(已有的词表中没有或训练语料中没有):新出现的普通词,命名实体(比“专有名词”的范围更大),领域词,其他专用名词。
汉语分词方法。可以粗略地分为三类:基于规则的方法(基于词表),基于统计的方法,二者相结合。
这块着重点:1,前向最长匹配原则;2,常用汉语分词软件。
二,词性标注
词性是词汇基本的语法属性,通常也称为词类。
词性标注是在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程。