【NLP】常见衡量指标(metrics)

艾鹤

已于 2022-02-24 10:59:42 修改

阅读量1.6k

点赞数

分类专栏： nlp 文章标签： python sklearn 机器学习

于 2019-07-29 16:25:02 首次发布

本文链接：https://blog.csdn.net/u010212101/article/details/97650850

版权

nlp 专栏收录该内容

42 篇文章 3 订阅

订阅专栏

1 ROC相关：P，R，F

P/R/F1计算，python API：
classification_report
混淆矩阵：
multilabel_confusion_matrix
confusion_matrix
场景：
分类任务：P/R/F1
推荐任务：ROC/acc

除此之外，还有

宏平均（MACRO）其实是把高频和低频类别同等对待了，
加权平均（WEIGHT）是根据频次来给每个类别分配权重的
微平均（MICRO）是不区分样本类别，计算整体的 精准、召回和F1

2 相关系数：皮尔逊系数

https://blog.csdn.net/u010212101/article/details/82873022

3 字准-字错误率

https://github.com/zszyellow/WER-in-python
错的越多，效果越差

4 困惑度

任务：

语言模型：困惑度越大，效果越差

5 MOS打分

6 盲测：人工标注结果 vs 算法计算结果

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

艾鹤

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【NLP】常见衡量指标(metrics)

1 ROC相关：P，R，F2 相关系数：皮尔逊系数3 字准4 困惑度5 MOS打分
复制链接

扫一扫

专栏目录

NLP评价指标

xzq_qzx_的博客

03-04

1804

1，2，3，4这四种评估指标是基础评估指标；5，6两种评估指标主要用来辨别一句话是否是人话的概率；7，8两种指标经常用于机器翻译、文章摘要评价任务指标；9，10两种指标经常应用于机器翻译任务指标。如果还有其他比较重要或者常用的指标也欢迎大家分享，相互学习！！！以上均为笔者在学习和研究过程中参考过的资料,并非原创,在此表明。笔者目前也正在学习和研究大模型对此领域还不太熟练,欢迎与我讨论,提出宝贵的意见和建议。

NLPMetrics：适用于各种NLP指标的Python代码

02-03

关于自然语言处理性能指标[ ] 内容 •••• 要求在Python 2.7上测试 pip install -r requirements.txt 如何使用运行： python test/test_mt_text_score.py 目前仅支持MT指标笔记本电脑公制应用笔记本布鲁机器翻译 GLEU（Google-BLEU）机器翻译 WER（字错误率）转录精度机器翻译去做：广义BLEU（？），METEOR，ROUGE，CIDEr 评估指标：快速说明平均精度宏：句子分数的平均值 Micro ：语料库（除法前每个假设-参考对的分子和分母的总和）机器翻译 BLEU

参与评论您还未登录，请先登录后发表或查看评论

nlp评价指标

qq_18310041的博客

03-20

1659

F1-score, PPL, MRR, MAP, BLUE

NLP常见任务及评估指标

ph12345687的博客

04-21

6420

整理了一些常见的NLP任务评价指标

NLP笔记：分类问题常用metrics整理

codename_cys的博客

08-08

1110

NLP笔记：分类问题常用metrics整理 0. 简介 1. Accuracy 2. Precision, Recall & F1 score 1. TP, FP, FN, TN 2. Precision 3. Recall 4. F1 score 1. micro F1 2. macro F1 5. 代码实现样例 3. ROC & AUC 0. 简介这里，我们来考察一下NLP分类问题中常用的metrics定义。它们主要包括： Accuracy 准确率（Pre..

[NLP笔记] 评价指标

北方的水手，依靠北斗星及北极星来判断正北方向，

02-04

334

评价指标： GLUE SuperGLUE（DeepMind、纽约大学、华盛顿大学联合Facebook提出了新的测试标准SuperGLUE，加入了更难的因果推理任务） SQuAD RACE 参考一文看尽2019全年AI技术突破量子位 ...

metrics_LSD_深度语音合成_语音可懂度_STOI_

10-01

这种方法已经大大改进了传统的文本转语音系统，使得生成的语音更加自然、流畅，且能够适应各种语言和口音。接下来是**LSD**，即线谱分歧。它是一种用于衡量两个谱序列相似度的度量，常用于评估语音信号的处理效果...

2021最新大厂AI面试题：Q3版107题（含答案及解析）.pdf

03-04

这份面试题目涵盖了多个方面的AI知识点，包括机器学习、深度学习、自然语言处理等领域。下面是从这份面试题目中提取的相关知识点： 机器学习 1. 逻辑回归（Logistic Regression）：逻辑回归是一个分类算法，它可以...

Intership_Douban:关于豆瓣电影的多类别和多标签分类

03-26

对于文本数据，例如用户评论，可能需要进行分词、去除停用词、词干提取等预处理，这可以借助jieba和nltk等自然语言处理库完成。在特征工程阶段，我们需要将原始数据转化为机器学习模型可以理解的形式。例如，将...

Python-演示神经解释生成的代码包括公开的数据集

08-11

在Python编程领域，特别是在机器学习和自然语言处理（NLP）的应用中，神经网络模型已经广泛用于各种任务，如文本生成、翻译、情感分析等。本项目“Python-演示神经解释生成的代码包括公开的数据集”专注于神经网络...

用tensorflow训练做阅读理解

11-18

阅读理解是自然语言处理（NLP）领域的一个关键任务，其目标是理解一段文本并回答与之相关的问题。TensorFlow 是谷歌开发的一款强大的开源机器学习框架，非常适合用于构建和训练复杂的深度学习模型，包括用于阅读理解...

NLP中文分词的评估指标

岁月如歌

10-27

708

NLP中文分词的评估指标 sklearn计算准确率、精确率、召回率、F1 score

NLP攻击评价指标

qq_38156951的博客

04-17

1239

进行NLP对抗攻击的实验中可能会使用的攻击评价指标（持续更新）。目录基于机器的评价指标攻击成功率原始精度（original accuracy）攻击后精度（ after-attack accuracy）对抗文本和原始文本语义相似程度（SemanticSimilarity）扰动单词百分比（perturbed word percentage）语义相似性（USE）攻击模型的效率攻击系统对目标模型查询次数（QueryNumber）基于人的评价指标基于机器的评价指标攻击成功率通过对比原始精度和攻击后的精度得到，

【学习3】一些NLP评价指标及其计算

iviyandyssg的博客

07-24

2340

参考 1、https://zhuanlan.zhihu.com/p/223048748 2、https://www.cnblogs.com/xinbaby829/p/6955687.html 3、https://zhuanlan.zhihu.com/p/37639563 1、bleu BLEU (全称为Bilingual Evaluation Understudy)的意思是双语评估替补。尽管最开始作为翻译的指标而被发明，但bleu也可以用于image caption的评估。假如给定标准译文

NLP文本生成的评价指标有什么？

u012744245的博客

03-19

5463

文章目录NLP文本生成的评价指标有什么？1. BLEU2. ROUGE2.1 ROUGE-N （将BLEU的精确率优化为召回率）2.2 ROUGE-L （将BLEU的n-gram优化为公共子序列）2.3 ROUGE-W （ROUGE-W 是 ROUGE-L 的改进版）2.4 ROUGE-S （Skip-Bigram Co-Occurrence Statistics）3. METEOR4. 参考 NLP文本生成的评价指标有什么？ NLP文本生成任务的评价指标有哪些？怎么判断模型好坏呢？如何解读指标的意义？例如

NLP笔记：推荐问题常用metrics整理

codename_cys的博客

09-29

677

NLP进阶之（二）Chatbot评估指标

qq_35495233的博客

01-25

1411

NLP进阶之（二）Chatbot评估指标1. 基于检索模型1.1 Ubuntu对话语料库1.2 Baseline评估指标1.2 解码器1.3 模型训练1.4 参考文献2. 注意力机制（Attention）2.1 注意力机制背景2.2 计算背景变量2.3 矢量化计算2.4 更新隐藏状态3. 小结3.1 参考链接 1. 基于检索模型在这篇文章中，我们将实现一个基于检索的机器人。基于检索的模型具有可以...

NLP python 处理常用相似度计算

asjdjcndsmc的博客

04-04

143

NLP 处理常用相似度计算。

自然语言处理中的语言模型的评估指标

禅与计算机程序设计艺术

01-18

899

1.背景介绍自然语言处理(NLP)是计算机科学和人工智能领域的一个重要分支，其主要目标是让计算机理解、生成和处理人类语言。语言模型(Language Model, LM)是NLP中的一个基本概念，它描述了一个词或词序列在某个语言中的概率分布。语言模型是NLP任务的基础，例如语言翻译、文本摘要、文本生成等。在NLP中，评估语言模型的性能是非常重要的。不同的评估指标可以帮助我们了解模型在不同方...

NLP课件-自然语言处理课件

“相关推荐”对你有帮助么？

非常没帮助
没帮助
一般
有帮助
非常有帮助

提交