中文分词性能分析方法

本文介绍了如何使用准确率和召回率来评估中文分词的性能。通过对文本的分词结果进行数值对表示,并与标准分词结果对比,计算出正确分词数,从而计算准确率和召回率。以万人大会堂为例,展示了正向和逆向最大匹配分词方法的计算过程。
摘要由CSDN通过智能技术生成


将文本的分词结果用许多数值对来表示。每一对数字对应一个词,表示词的首字和末字在文本中的位置。

例如有一个字符串文本:

万人大会堂今晚座无虚席

字符串中每个字符的索引分别为:

 0  1  2  3  4  5  6  7  8  9 10

标准分词结果如下:

万|人|大会堂|今晚|座无虚席

我们分词结果用一个个数值对来表示(根据每个词在字符串中的索引顺序):

(0,0) (1,1) (2,4) (5,6) (7,10)

这样通过比较 标准分词结果 和 测试分词结果 的数值对的重合情况,就能计算出测试分词结果的正确分词数。从而计算出准确率和召回率。

 

准确率和召回率计算方法如下:

例如:

若正向最大匹配分词结果为           万 | 人大 | 会堂 | 今晚 | 座无虚席

得到数值对                                   (0,0) (1,2)  (3,4)   (5,6)    (7,10)

切分结果中正确分词数=3   (与标准分词结果中有3个数值对相同)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值