计算机考试93781试题及答案,中文分词十年回顾

最新推荐文章于 2021-10-24 11:03:21 发布

赵林芬

最新推荐文章于 2021-10-24 11:03:21 发布

阅读量181

点赞数

文章标签：计算机考试93781试题及答案

本文探讨了支持向量机(SVM)、最大熵模型和条件随机场在中文词位学习中的应用。研究指出，由于分词在中文信息处理中的基础性，特征选择有限，常用的是字本身和词位转移概率。条件随机场在建模时能自动处理词位转换，而不需要额外指定特征。上下文窗口宽度通常选择为5个字，覆盖大多数构词情况，且统计数据显示99%以上的词次为5字或更短。此外，提出了平均加权词长作为评估词位标注集有效性的定量标准。

摘要由CSDN通过智能技术生成

１６中文信息学报

(ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ，ＳＶＭ)、最大熵和条件随机场，都已经被研究人员用于由字构词的词位学习中。事实上，由于分词在中文信息处理中的初级地位，可供选用的特征也非常少。迄今为止，最常用的两类特征是字本身以及词位(状态)转移概率(这里我们沿用隐马尔科夫模型(ＨＭＭ)中的术语)。

对于支持向量机和最大熵方法来说，需要设计独立的状态转移特征来表达词位的转化。但是对于一阶线性链条件随机场学习来说，这一转移过程将被自动集成到系统中来，而无需专门指定。这样，对于采用条件随机场建模的分词系统来说，需要考虑的仅仅是字特征。

词位学习中确定字特征的主要参数是上下文窗口的宽度，也就是使用距当前字多远的字来作为当前字标注的依据。相关工作表明，使用前后各两个字(即５个字的窗口宽度)是比较理想的。实际上，根据历届Ｂａｋｅｏｆｆ提交的报告，很少有系统使用超过５个字的窗口宽度。这是具有统计学依据的。笔者统计了Ｂａｋｅｏｆｆ－２００３和Ｂａｋｅｏｆｆ一２００５的全部８个训练语料库词长的频率分布，结果见表７。从中可以看到，在所有语料库中９０％的词次是１～２字词，９５％的词次是３字或３字以下词，９９％以上的词次都是５字或５字以下词。因此，使用宽度为５个字的上下文窗口足以覆盖真实文本中绝大多数的构词情形。

笔者在文献［２３］中给出了一个确定有效词位标注集的定量标准平均加权词长。其定义为：

１三

Ｌ＾一击＞：ｉＮ女(１)

』Ｖ—ｉ＝—ｋ

上式中，Ｌ。是ｉ≥忌时的平均加权词长，Ｍ是语料中词长为ｋ的词次数，Ｋ是语料中出现过的最大词长，Ｎ是语料库的总词次数。如果ｋ一１，那么Ｌ。代表整个语料的平均词长。Ｂａｋｅｏｆｆ－２００３和Ｂａｋｅ—ｏｆｆ－２００５各训练语料库的平均加权词长分布数据见表８。从统计中可以看到，所有语料库的平均加权词长在１．５１～１．７１之间。因此，５字长的上下文窗口恰好大致表达了前后各一个词的上下文(确切范围是４．５３～５．１３)。从这个意义上来说，５字宽的上下文窗口具备了字和词的双重含义。

表７Ｂａｋｅｏｆｆ－２００３和Ｂａｋｅｏｆｆ－２００５各训练语料库词长的频率分布

词长Ａ￥２００３Ａ￥２００５ＣｉｔｙＵ２００３、ＣｉｔｙＵ２００５ＣＴＢ２００３ＭＳＲＡ２００５ＰＫＵ２００３ＰＫＵ２００５１０．５４４７０．５７１２０．４９４００．４６８９Ｏ．４３６７Ｏ．４７１５Ｏ．４７２１Ｏ．４７２７２０．３９３８０．３７８７０．４２７１０．４５５４Ｏ．４７１９Ｏ．４３８７Ｏ．４５０８Ｏ．４４９９３０．０４６３０．０３５８０．０５８７０．０５９７０．０６７２Ｏ．０４７５０．０４９５０．０４９５３４０．０１０７０．００９９Ｏ．０１５９０．０１３４Ｏ．０１１６０．０２４２Ｏ．０２０４Ｏ．０２０５５０．００１８Ｏ．００１９０．００２４０．００１６０．００７６Ｏ．００８９Ｏ．００５７Ｏ．００５６６０．０００８０．０００７０．００１００．０００５Ｏ．００２４Ｏ．００３７０．０００７０．０００７≤７０．９９８７０．９９８６０．９９９６Ｏ．９９９８０．９９９２Ｏ．９９６２０．９９９７０．９９９５表８Ｂａｋｅｏｆｆ－２００３和Ｂａｋｅｏｆｆ－２００５各语料的平均加权词长分布

ｋＡ￥２００３ＡＳ２００５ＣｉｔｙＵ２００３ＣｉｔｙＵ２００５ＣＴＢ２００３ＭＳＲＡ２００５ＰＫＵ２００３ＰＫＵ２００５１１．５４５８１．５０９Ｏ１．６１３０１．６２７５１－７０１６１．７１０２１．６４２９１．６４５５２１．００１１Ｏ．９３７８１．１１９Ｏ１．１５８７１．２６４９１．２４０１１．１７０８１．１７２８３０．２１３５Ｏ．１８０５０．２６４８０．２４７９０．３２１１Ｏ．３６１９Ｏ．２６９２Ｏ．２７３０４０．０７４７０．０７３１０．０８８７Ｏ．０６８８０．１１９５Ｏ．２１９３Ｏ．１２０８０．１２４４５Ｏ．０３２ＯＯ．０３３４Ｏ．０２５２Ｏ．０１５ＯＯ．０７３２Ｏ．１２２３０．０３９００．０４２３６０．０２２８Ｏ．０２４１Ｏ．０１３３０．００７２Ｏ．０３５１Ｏ．０７７６Ｏ．０１０５Ｏ．０１４２７０．０１７８Ｏ．０１９９Ｏ．００７２０．００４４０．０２０７Ｏ．０５５２Ｏ．００６３Ｏ．００９９８０．０１３６０．０１６６０．００３８０．００２０Ｏ．０１３３Ｏ．０３７４０．００２９Ｏ．００６５