16中文信息学报
(SupportVectorMachine,SVM)、最大熵和条件随机场,都已经被研究人员用于由字构词的词位学习中。事实上,由于分词在中文信息处理中的初级地位,可供选用的特征也非常少。迄今为止,最常用的两类特征是字本身以及词位(状态)转移概率(这里我们沿用隐马尔科夫模型(HMM)中的术语)。
对于支持向量机和最大熵方法来说,需要设计独立的状态转移特征来表达词位的转化。但是对于一阶线性链条件随机场学习来说,这一转移过程将被自动集成到系统中来,而无需专门指定。这样,对于采用条件随机场建模的分词系统来说,需要考虑的仅仅是字特征。
词位学习中确定字特征的主要参数是上下文窗口的宽度,也就是使用距当前字多远的字来作为当前字标注的依据。相关工作表明,使用前后各两个字(即5个字的窗口宽度)是比较理想的。实际上,根据历届Bakeoff提交的报告,很少有系统使用超过5个字的窗口宽度。这是具有统计学依据的。笔者统计了Bakeoff-2003和Bakeoff一2005的全部8个训练语料库词长的频率分布,结果见表7。从中可以看到,在所有语料库中90%的词次是1~2字词,95%的词次是3字或3字以下词,99%以上的词次都是5字或5字以下词。因此,使用宽度为5个字的上下文窗口足以覆盖真实文本中绝大多数的构词情形。
笔者在文献[23]中给出了一个确定有效词位标注集的定量标准平均加权词长。其定义为:
1三
L^一击>:iN女(1)
』V—i=—k
上式中,L。是i≥忌时的平均加权词长,M是语料中词长为k的词次数,K是语料中出现过的最大词长,N是语料库的总词次数。如果k一1,那么L。代表整个语料的平均词长。Bakeoff-2003和Bake—off-2005各训练语料库的平均加权词长分布数据见表8。从统计中可以看到,所有语料库的平均加权词长在1.51~1.71之间。因此,5字长的上下文窗口恰好大致表达了前后各一个词的上下文(确切范围是4.53~5.13)。从这个意义上来说,5字宽的上下文窗口具备了字和词的双重含义。
表7Bakeoff-2003和Bakeoff-2005各训练语料库词长的频率分布
词长A¥2003A¥2005CityU2003、CityU2005CTB2003MSRA2005PKU2003PKU200510.54470.57120.49400.4689O.4367O.4715O.4721O.472720.39380.37870.42710.4554O.4719O.4387O.4508O.449930.04630.03580.05870.05970.0672O.04750.04950.0495340.01070.0099O.01590.0134O.01160.0242O.0204O.020550.0018O.00190.00240.00160.0076O.0089O.0057O.005660.00080.00070.00100.0005O.0024O.00370.00070.0007≤70.99870.99860.9996O.99980.9992O.99620.99970.9995表8Bakeoff-2003和Bakeoff-2005各语料的平均加权词长分布
kA¥2003AS2005CityU2003CityU2005CTB2003MSRA2005PKU2003PKU200511.54581.509O1.61301.62751-70161.71021.64291.645521.0011O.93781.119O1.15871.26491.24011.17081.172830.2135O.18050.26480.24790.3211O.3619O.2692O.273040.07470.07310.0887O.06880.1195O.2193O.12080.12445O.032OO.0334O.0252O.015OO.0732O.12230.03900.042360.0228O.0241O.01330.0072O.0351O.0776O.0105O.014270.0178O.0199O.00720.00440.0207O.0552O.0063O.009980.01360.01660.00380.0020O.0133O.03740.0029O.0065