NLP攻击评价指标

进行NLP对抗攻击的实验中可能会使用的攻击评价指标(持续更新)。

一、基于机器的评价指标

1.攻击成功率

通过对比原始精度和攻击后的精度得到,不同论文中可能对成功率的定义有细微的差别。

原始精度(original accuracy)

通常指目标模型对原始文本的文本分类或情感分析等分类任务的分类准确率。

攻击后精度( after-attack accuracy)

指目标模型在对抗样本上的分类准确率。

2.对抗文本和原始文本语义相似程度(SemanticSimilarity)

扰动单词百分比(perturbed word percentage)

定义为扰动词数和文本长度的比值。

语义相似性(Universal Sentence Encoder)

通过Encoder得到当前句子向量,预测句子前后文的单词。句子的表达是通过对Encoder输出的每个位置的词求和取平均得到的。
USE通过增加更多任务来扩展多任务训练,并与一个类似 skip-thought 的模型联合训练,从而在给定文本片段下预测句子上下文。USE可用于各类迁移学习任务(包括情感和语义相似度分析)。

在这里插入图片描述

Universal Sentence Encoder.

3.攻击模型的效率

用攻击系统对目标模型进行的查询次数来评估攻击模型的效率,查询次数越少,表明效率越高。

二、基于人的评价指标

基于人的评价指标主要包括三个方面:语义相似性、语法性和分类准确性。

先随机混合原始文本和对抗文本,然后让人类对其进行1-5的合理性评分,用于判断对抗样本的语法合理性

在原始文本和对抗文本的混合样本集中对每个示例进行分类,然后计算两个分类结果的一致性率来评估分类一致性

判断生成的对抗性文本是否与原始文本相似、模糊或不相似,来评估原始文本和对抗文本的语义相似性

<think>嗯,用户想了解大模型的评估指标,包括准确率、召回率、损失函数这些常见的,还有其他的性能评测标准。首先,我需要回忆一下常见的机器学习评估指标,然后考虑大模型特有的部分。 首先,损失函数确实是训练过程中用的,比如交叉熵损失、均方误差这些,但用户可能知道这些,需要确认是否属于评估指标。根据引用[1],损失函数是训练用的,评估指标是测试时用的,所以可能应该分开讲。 然后,基础分类指标有准确率、精确率、召回率、F1值。但引用[2]和[4]提到准确率在类别不平衡时的局限性,所以需要强调这些指标的应用场景和限制。比如准确率在数据不平衡时可能不准确,这时候需要用F1或者AUC-ROC。 接下来,回归任务常用的指标,如MAE、MSE、RMSE、R²,这些都是标准指标,应该包括进去。 大模型可能涉及生成任务,比如自然语言处理中的BLEU、ROUGE、METEOR,这些是评价生成文本质量的指标。用户可能知道准确率这些,但生成任务的不同之处需要说明。 还有特定任务指标,比如问答中的EM和F1,摘要的ROUGE,代码生成的执行准确率。这部分需要具体例子,让用户理解不同任务的不同评估方法。 性能效率指标也很重要,比如推理速度、内存占用、FLOPs,特别是大模型在部署时的资源消耗,这些影响实际应用。 新兴评估维度,比如伦理安全性、偏见检测、鲁棒性,这些是大模型特有的问题,可能需要引用相关研究,但用户提供的引用中没有提到这些,可能需要根据常识补充。 另外,大模型的多任务评估,比如MMLU、HELM,这些基准测试集用来全面评估模型能力,需要提及。 用户的问题可能更关注除了传统指标之外的大模型特有的评估方法,所以需要平衡传统和新兴指标。同时,注意引用已有的资料,比如引用[1]-[4]提到的准确率、召回率、损失函数的关系,以及类别不平衡的问题。 需要检查是否有遗漏的重要指标,比如人类评估,虽然主观但重要。或者像Toxicity评分这样的伦理相关指标。 最后,组织答案时要分点清晰,可能按任务类型分类,比如分类、回归、生成任务,再讲效率、伦理等。确保每个指标解释清楚,并提到其适用场景和限制,帮助用户全面理解。</think>### 大模型评估指标详解 大模型的评估指标需要从多个维度综合衡量其性能,包括传统机器学习指标和大模型特有的评估标准。以下是主要分类及说明: --- #### 一、**基础分类指标** 1. **准确率(Accuracy)** 定义:预测正确的样本占总样本的比例,公式为: $$ \text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN} $$ 适用场景:类别平衡的简单分类任务。 局限性:在类别不平衡时可能失真(例如99%负样本的数据集,模型全预测负类也能达到高准确率)[^4]。 2. **精确率(Precision)与召回率(Recall)** - 精确率:预测为正类的样本中实际为正类的比例,公式: $$ \text{Precision} = \frac{TP}{TP + FP} $$ - 召回率:实际为正类的样本中被正确预测的比例,公式: $$ \text{Recall} = \frac{TP}{TP + FN} $$ 适用场景:关注正类检测的任务(如医疗诊断、欺诈检测)[^2][^3]。 3. **F1-Score** 定义:精确率和召回率的调和平均数,公式: $$ F1 = \frac{2 \times \text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}} $$ 适用场景:需要平衡精确率和召回率的场景(如信息检索)。 4. **AUC-ROC** 定义:通过绘制真正类率(TPR)与假正类率(FPR)的曲线下面积评估分类器整体性能,AUC值越大越好。 适用场景:类别不平衡或需要综合评估分类器排序能力的任务。 --- #### 二、**回归任务指标** 1. **均方误差(MSE)** 定义:预测值与真实值差的平方均值,公式: $$ \text{MSE} = \frac{1}{N} \sum_{i=1}^N (y_i - \hat{y}_i)^2 $$ 特点:对异常值敏感,反映误差的绝对大小。 2. **平均绝对误差(MAE)** 公式: $$ \text{MAE} = \frac{1}{N} \sum_{i=1}^N |y_i - \hat{y}_i| $$ 特点:鲁棒性更强,适合对异常值不敏感的任务。 --- #### 三、**生成任务专用指标** 1. **BLEU** 用途:评估机器翻译或文本生成的质量,通过比较生成文本与参考文本的n-gram重叠度。 公式: $$ \text{BLEU} = \text{BP} \times \exp\left( \sum_{n=1}^k w_n \log p_n \right) $$ 其中,BP(Brevity Penalty)惩罚过短输出。 2. **ROUGE** 用途:评估文本摘要或生成任务,关注召回率(如ROUGE-L基于最长公共子序列)。 3. **METEOR** 特点:引入同义词和词干匹配,比BLEU更接近人工评估结果。 --- #### 四、**大模型特有评估维度** 1. **任务多样性评测** - **MMLU(Massive Multitask Language Understanding)**:涵盖57个学科的多选题测试,评估模型跨领域知识掌握能力。 - **HELM(Holistic Evaluation of Language Models)**:从准确性、公平性、鲁棒性等维度综合评测。 2. **伦理与安全性** - **偏见检测**:通过特定数据集(如BOLD)评估模型输出中的性别、种族等偏见。 - **毒性评分(Toxicity Score)**:使用分类器检测生成内容中的攻击性语言。 3. **效率指标** - **推理速度(Tokens/Second)**:直接影响实际部署成本。 - **显存占用(GPU Memory)**:衡量模型对硬件资源的需求。 - **FLOPs(浮点运算次数)**:反映模型计算复杂度。 --- #### 五、**其他重要指标** 1. **损失函数(训练阶段)** 如交叉熵损失(分类)、均方误差(回归),用于优化模型参数,但需注意训练损失低不一定对应测试集高精度[^1]。 2. **人类评估(Human Evaluation)** 生成任务中常通过人工打分评估流畅性、相关性等主观指标。 --- ###
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值