Table of Contents
词性标注
简介
词性是词汇基本的语法属性,也称为词类。词性标注是在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程。词性标注是很多NLP任务的预处理步骤,如句法分析,经过词性标注后的文本会带来很大的便利性,但也不是不可或缺的步骤。整体上看在中文中,大多数词语,尤其是实词,一般只有一到两个词性,且其中一个词性的使用频率远大于另一个,即使每次都单纯选取最高频词性,也能实现80%准确率。
词性标注最简单的方法是从语料库中统计每个词所对应的高频词性,将其作为默认词性,这样显然还有上升空间。目前较主流的方法是同分词一样,将句子的词性标注作为一个序列标注问题来解决,同样分词中的常用方法,如HMM, CRF都可以在词性标注上使用。
词性标注规范
词性需要有一定的规范,如将词分为名词、形容词、动词,然后用'n' 'adj' 'v'来表示。中文领域尚无统一的标注标准,较为主流的有北大词性标注集合宾州词性标注集。北大词性标注集部分标注词性如下表所示:
Ag 形语素 形容词性语素。形容词代码为a,语素代码g前面置以A。
a 形容词 取英语形容词adjective的第1个字母。
ad 副形词 直接作状语的形容词。形容词代码a和副词代码d并在一起。
an 名形词 具有名词功能的形容词。形容词代码a和名词代码n并在一起。
b 区别词 取汉字“别”的声母。
c 连词 取英语连词conjunction的第1个字母。
Dg 副语素 副词性语素。副词代码为d,语素代码g前面置以D。
d 副词 取adverb的第2个字母,因其第1个字母已用于形容词。
e 叹词 取英语叹词exclamation的第1个字母。
f 方位词 取汉字“方” 的声母。
g 语素 绝大多数语素都能作为合成词的“词根”,取汉字“根”的声母。
h 前接成分 取英语head的第1个字母。
i 成语 取英语成语idiom的第1个字母。
j 简称略语 取汉字“简”的声母。
k 后接成分
l 习用语 习用语尚未成为成语,有点“临时性”,取“临”的声母。
m 数词 取英语numeral的第3个字母,n,u已有他用。
Ng 名语素 名词性语素。名词代码为n,语素代码g前面置以N。
n 名词 取英语名词noun的第1个字母。
nr 人名 名词代码n和“人(ren)”的声母并在一起。
ns