序列标注 | (9) 中文分词评价指标（续）

最新推荐文章于 2021-09-14 11:17:55 发布

CoreJT

最新推荐文章于 2021-09-14 11:17:55 发布

阅读量899

点赞数 1

分类专栏：序列标注

原文链接：http://km.oa.com/group/17516/articles/show/381981

版权

序列标注专栏收录该内容

9 篇文章 18 订阅

订阅专栏

上一篇博客我们介绍了中文分词的一些评价指标，包括Precision、Recall、F1-score、OOVRecall和IVRecall。本篇博客我们将继续介绍一些其他的评价指标：柔性评测方案。

由于中文分词还没有形成一个公认的分词标准，服务于不同目的的分词系统会对分词单位有不同的要求，进而导致同一文本可能被不同的人划分为几种不同的分词结果。为了能够对各类分词系统进行公正的评价,可以使用一种柔性的评测方案[1]，而不是使用闭集测试方法的准确率，召回率等完全匹配的评测指标。具体的，我们首先将分词工具预测的分词结果划分为四种情况：

一致：预测的词语和标准集词语完全一致，该情况反映了分词工具和标准集定义的分词粒度一致性；
拆分：标准集词语等于多个连续的预测词语，如：标准集词语“鲁班”会被工具1拆分为姓和名“鲁/班”。拆分情况通常发生于标准集的分词粒度大于分词工具定义的粒度，并不是严格意义的分词错误；
合并：预测词语等于多个连续的标准集词语，如：工具2预测的词语“放大招”在标准集中是由连续的两个词语“放”和“大招”构成。合并情况通常发生于标准集的分词粒度小于分词工具定义的粒度，它也不是严格意义的分词错误；
冲突：预测词语和标准集词语存在边界冲突。如：工具3会将标准集中“射手”分开，并将“手”和“鲁”组合为一个标准集中不存在的词语“手鲁”，破坏了词语“射手”和“鲁班”的结构，生成错误的分词片段“射” “手鲁”和“班”。冲突情况是一种严格意义的切分错误，冲突比例反映了分词工具的错误率，是衡量一个分词工具好坏的最主要指标，也是评测分析的重点指标。

在这里插入图片描述
将各个分词工具的分词结果和标准集进行对比，并统计标准集中词语的被预测情况，得到上述四种情况的占比。评测过程以自动评测为主,主要分析各分词工具的冲突占比以及一致性占比，冲突比例表示分词工具的错误率，一致性比例表示分词工具和标准集定义的分词粒度一致性。此外，还可以采用人工评测为辅，人工评测主要是对“拆分”“合并”结果进行分析，人工评测部分拆分合并结果，会发现拆分合并的情况主要是由于粒度定义不同导致，而非“硬错误”，所以这两种情况的占比并不是关注的重点。

[1] 杨尔弘, 方莹, 刘冬明等. 汉语自动分词和词性标注评测[J]. 中文信息学报, 2006, 20(1): 46-51.

CoreJT

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
序列标注 | (9) 中文分词评价指标（续）

上一篇博客我们介绍了中文分词的一些评价指标，包括Precision、Recall、F1-score、OOVRecall和IVRecall。本篇博客我们将继续介绍一些其他的评价指标：柔性评测方案。由于中文分词还没有形成一个公认的分词标准，服务于不同目的的分词系统会对分词单位有不同的要求，进而导致同一文本可能被不同的人划分为几种不同的分词结果。为了能够对各类分词系统进行公正的评价,可以使用一种柔性的评测方案[1]，而不是使用闭集测试方法的准确率，召回率等完全匹配的评测指标。具体的，我们首先将分词工具预测的分词
复制链接

扫一扫