NLP入门(2)-分词结果评价及实战

最新推荐文章于 2023-04-04 16:57:50 发布

文文学霸

最新推荐文章于 2023-04-04 16:57:50 发布

阅读量1k

点赞数 2

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/abcdefg90876/article/details/103116181

版权

上一篇中我们介绍了词典分词的方法，并介绍了正向最长匹配、逆向最长匹配和双向最长匹配几种分词规则。本文主要介绍一下如何对分词结果进行评价。

对于分词结果的评价，本文主要介绍五个指标，分别是精确率、召回率、F1值、OOV Recall Rate和IV Recall Rate。

1、评价指标介绍

1.1 精确率、召回率、F1值

先回顾一下精确率、召回率、F1值的定义。对于二分类问题，真实的样本标签有两类，我们学习器预测的类别有两类，那么根据二者的类别组合可以划分为四组，如下表所示：

上表即为混淆矩阵，其中，行表示预测的label值，列表示真实label值。TP，FP，FN，TN分别表示如下意思：

TP（true positive）：表示样本的真实类别为正，最后预测得到的结果也为正；
FP（false positive）：表示样本的真实类别为负，最后预测得到的结果却为正；
FN（false negative）：表示样本的真实类别为正，最后预测得到的结果却为负；
TN（true negative）：表示样本的真实类别为负，最后预测得到的结果也为负.

可以看到，TP和TN是我们预测准确的样本，而FP和FN为我们预测错误的样本。

基于混淆矩阵，我们可以得到如下的评测指标：

精确率／召回率

精确率表示预测结果中，预测为正样本的样本中，正确预测为正样本的概率；
召回率表示在原始样本的正样本中，最后被正确预测为正样本的概率；

二者用混淆矩阵计算如下：

最低0.47元/天解锁文章

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
NLP入门(2)-分词结果评价及实战

上一篇中我们介绍了词典分词的方法，并介绍了正向最长匹配、逆向最长匹配和双向最长匹配几种分词规则。本文主要介绍一下如何对分词结果进行评价。对于分词结果的评价，本文主要介绍五个指标，分别是精确率、召回率、F1值、OOV Recall Rate和IV Recall Rate。1、评价指标介绍1.1 精确率、召回率、F1值先回顾一下精确率、召回率、F1值的定义。对于二分类问题，真实的样本标签有两类，我们学...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。