进行统计自然语言处理系统梳理,学习资料《统计自然语言处理.宗成庆》。
一、自动分词
词,词是最小的能够独立运用的语言单位。
自动分词问题由来。中文(还有日语、越南语、藏语等)的文本不像西方屈折语的文本,词与词之间没有空格之类的标注来显示指示词的边界,因此,自动分词成了文本处理的首要基础性工作。
汉语自动分词的基本问题。1,分词规范问题:一方面单字词与词素的界定,另一方面是词与短语的界定。2,歧义划分问题:交集型歧义,如“结合成”,可划分为“结合|成”或“结|合成”; 组合型歧义,如“起身”,可以分开“起|身”,也可以不分开。3,未登录词问题(已有的词表中没有或训练语料中没有):新出现的普通词,命名实体(比“专有名词”的范围更大),领域词,其他专用名词。
汉语分词方法。可以粗略地分为三类:基于规则的方法(基于词表),基于统计的方法,二者相结合。
这块着重点:1,前向最长匹配原则;2,常用汉语分词软件。
二,词性标注
词性是词汇基本的语法属性,通常也称为词类。
词性标注是在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程。
词性标注的难点:汉语是一种缺乏诩形变化的语言,语的类别不能像印欧语那样,直接从形态变化上判别;常用词兼类现象严重;研究者主观原因造成的困难。
词类标注的基本方法:基于统计,基于规则,二者相结合。
这块着生点:基于隐马的词性标注和基于最大熵的异源语料融合。
三,命名实体识别
命名实体识别的主要任务是识别出文本中的人名 、地名等专有名称和有意义的时间 、日期等数量短语并加以归类。
方法归类:早期的命名实体识别主要是基于规则的,后来基于大规模语料库的统计方法逐渐成为自然语言处理的主流。基于机器学习的方法可以划分为四类:有监督的方法,半监督的方法,无监督的方法,混合方法。
用于命名实体识别的机器学习方法有:隐马尔可夫模型,最大熵模型,支持向量机,条件随机场,决策树。最大熵模型结构紧凑 , 具有较好的通用性 ,主要缺点是训练时间复杂性非常高 ,有时甚至导致训练代价难以承受 , 另外由于需要明确的归一化计算 , 导致开销比较大。而条件随机场为命名实体识别提供了一个特征灵活、全局最优的标注框
架 ,但同时存在收敛速度慢、训练时间长的问题。 一般说来 ,最大熵和支持向量机在正确率上要比隐马尔可夫模型高一些 ,但是隐马尔可夫模型在训练和识别时的速度要快一些 ,主要是由于在利用 V i t e r b i 算法求解命名实体类别序列的效率较高。隐马尔可夫模型更适用于一些对实时性有要求以及像信息检索这样需要处理大量文本的应用 ,如短文本命名实体识别。
这块着重点:1,几种机器模型在命名实体识别方法的效果;2,自己在公司名识别方面的工作。