计算机考试93781试题及答案,中文分词十年回顾

本文探讨了支持向量机(SVM)、最大熵模型和条件随机场在中文词位学习中的应用。研究指出,由于分词在中文信息处理中的基础性,特征选择有限,常用的是字本身和词位转移概率。条件随机场在建模时能自动处理词位转换,而不需要额外指定特征。上下文窗口宽度通常选择为5个字,覆盖大多数构词情况,且统计数据显示99%以上的词次为5字或更短。此外,提出了平均加权词长作为评估词位标注集有效性的定量标准。
摘要由CSDN通过智能技术生成

16中文信息学报

(SupportVectorMachine,SVM)、最大熵和条件随机场,都已经被研究人员用于由字构词的词位学习中。事实上,由于分词在中文信息处理中的初级地位,可供选用的特征也非常少。迄今为止,最常用的两类特征是字本身以及词位(状态)转移概率(这里我们沿用隐马尔科夫模型(HMM)中的术语)。

对于支持向量机和最大熵方法来说,需要设计独立的状态转移特征来表达词位的转化。但是对于一阶线性链条件随机场学习来说,这一转移过程将被自动集成到系统中来,而无需专门指定。这样,对于采用条件随机场建模的分词系统来说,需要考虑的仅仅是字特征。

词位学习中确定字特征的主要参数是上下文窗口的宽度,也就是使用距当前字多远的字来作为当前字标注的依据。相关工作表明,使用前后各两个字(即5个字的窗口宽度)是比较理想的。实际上,根据历届Bakeoff提交的报告,很少有系统使用超过5个字的窗口宽度。这是具有统计学依据的。笔者统计了Bakeoff-2003和Bakeoff一2005的全部8个训练语料库词长的频率分布,结果见表7。从中可以看到,在所有语料库中90%的词次是1~2字词,95%的词次是3字或3字以下词,99%以上的词次都是5字或5字以下词。因此,使用宽度为5个字的上下文窗口足以覆盖真实文本中绝大多数的构词情形。

笔者在文献[23]中给出了一个确定有效词位标注集的定量标准平均加权词长。其定义为:

1三

L^一击>:iN女(1)

』V—i=—k

上式中,L。是i≥忌时的平均加权词长,M是语料中词长为k的词次数,K是语料中出现过的最大词长,N是语料库的总词次数。如果k一1,那么L。代表整个语料的平均词长。Bakeoff-2003和Bake—off-2005各训练语料库的平均加权词长分布数据见表8。从统计中可以看到,所有语料库的平均加权词长在1.51~1.71之间。因此,5字长的上下文窗口恰好大致表达了前后各一个词的上下文(确切范围是4.53~5.13)。从这个意义上来说,5字宽的上下文窗口具备了字和词的双重含义。

表7Bakeoff-2003和Bakeoff-2005各训练语料库词长的频率分布

词长A¥2003A¥2005CityU2003、CityU2005CTB2003MSRA2005PKU2003PKU200510.54470.57120.49400.4689O.4367O.4715O.4721O.472720.39380.37870.42710.4554O.4719O.4387O.4508O.449930.04630.03580.05870.05970.0672O.04750.04950.0495340.01070.0099O.01590.0134O.01160.0242O.0204O.020550.0018O.00190.00240.00160.0076O.0089O.0057O.005660.00080.00070.00100.0005O.0024O.00370.00070.0007≤70.99870.99860.9996O.99980.9992O.99620.99970.9995表8Bakeoff-2003和Bakeoff-2005各语料的平均加权词长分布

kA¥2003AS2005CityU2003CityU2005CTB2003MSRA2005PKU2003PKU200511.54581.509O1.61301.62751-70161.71021.64291.645521.0011O.93781.119O1.15871.26491.24011.17081.172830.2135O.18050.26480.24790.3211O.3619O.2692O.273040.07470.07310.0887O.06880.1195O.2193O.12080.12445O.032OO.0334O.0252O.015OO.0732O.12230.03900.042360.0228O.0241O.01330.0072O.0351O.0776O.0105O.014270.0178O.0199O.00720.00440.0207O.0552O.0063O.009980.01360.01660.00380.0020O.0133O.03740.0029O.0065

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值