nlp 中文文本纠错_NLP中文文本分类任务的笔记(四)

本文主要探讨nlp模型的更新和评估方法,包括loss function的选择(如cross-entropy和focal-loss),optimizer(如gradient descend和Adam),以及模型评估指标如accuracy、F1 score、AUC和PRC。AUC虽能整体评价二分类器,但忽略了概率值和拟合优度,而PRC更关注recall和precision的实际应用场景。
摘要由CSDN通过智能技术生成

bf18cc461d40b5d0bae8c758fe77e0c4.png

这篇主要是为了记录如何进行模型更新和模型评估。

模型更新

  1. loss function
  • cross-entropy: 针对多分类(二分类为例)

  • focal-loss: 针对数据不均衡的方式,可以采用(二分类为例)

2. optimizer:

  • gradient descend:

  • Adam:

模型评估

我们先要知道几个概念:

  • True positive (TP): 真实标签和预测标签都为正样本。
  • False positive (FP): 真实标签是负样本, 但是预测标签是正样本。
  • True negative (TN): 真实和预测都是负样本。
  • False negative (FN): 真实为正样本,预测为负样本。

评估一个二分类模型,有accuracy, F1 score, AUC 和 PRC

  1. Accuracy: 很简单就是预测正确数/样本总数。
  2. F1 score:

AUC:

AUC是评价一个二分类器整体的优劣性的,我们可以简单把AUC的计算公式:

通常情况下我们会使用ROC的曲线来体现AUC, 我们需要做的两件是:

  • 分类概率进行排序。
  • threshold

根据不同的threshold我们可以计算不同的 TPR和FPR:

选取不同的threshold,我们可以刻画出 TPR vs FPR的曲线:

103d76df1f9c87177256424886755f57.png

AUC的缺点:

  1. 忽略了预测的概率值和模型的拟合优度;(举个例子, 假设某个模型对“1”类样本输出的概率是0.51, 对“0”类样本的输出概率是0.49, 此时的AUC=1, 但是binary cross entropy会非常大)。
  2. AUC无法反应召回率、精确率等在实际业务中经常关心的指标。比如垃圾邮件监控中我们希望看到的是recall尽量高。比如在刑侦案件中,我们要秉持着疑罪从无。
  3. 把FPR和TPR同等看待。

PRC

与AUC类似,不过我们需要关心的是 recall 和 precision直接的关心。刻画PRC的时候,我需要关心不同threshold的情况下, recall和precision之间的关系, 最后刻画出来的precision和recall的prc图像呈现为:

fe989c15f30ee1cf5fd01d600ad7ce72.png
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值