基于字标注的分词方法
基于字标注的方法的实际上是构词方法,即把分词过程视为字在一串字的序列中的标注问题。由于每个字在构造成词的时候,都有一个确定的位置。也即对于词中的一个字来说,它只能是词首字、词中字、词尾字或单字词一个身份。
以常用的4-tag标注系统为例,假如规定每个字最多有四个构词位置,即:
- B(词首)
- M(词中)
- E(词尾)
- S(单独成词)
这里的{B,M,E,S}
{B,M,E,S}就是4-tag标注系统中的四个位置标注。
那么对于任意一个已经过分词的句子,我们都可以用这4个标注组成的序列,表示原来的分词结果。例如:
分词结果:我/爱/北京/天安门/。/
字标注形式:我/S 爱/S 北/B 京/E 天/B 安/M 门/E 。/S
需要指出的是,这里的”字”不只限于汉字,它可以是文本中出现的任何一个字符。因为在真实中文语料中,不可避免地会包含一些数量的非汉字字符,这里所说的”字”也包括外文字母、阿拉伯数字和标点符号等字符。所有这些字符都是构词的基本单元。
基于字标注的方法,把分词从原本的切分问题转化成一个序列标注问题。对于一个含有n个字符的句子c_1^n=c_1 c_2 … c_n,可以用下面的公式表示分词原理:\sum {a+b}