进行NLP对抗攻击的实验中可能会使用的攻击评价指标(持续更新)。
目录
一、基于机器的评价指标
1.攻击成功率
通过对比原始精度和攻击后的精度得到,不同论文中可能对成功率的定义有细微的差别。
原始精度(original accuracy)
通常指目标模型对原始文本的文本分类或情感分析等分类任务的分类准确率。
攻击后精度( after-attack accuracy)
指目标模型在对抗样本上的分类准确率。
2.对抗文本和原始文本语义相似程度(SemanticSimilarity)
扰动单词百分比(perturbed word percentage)
定义为扰动词数和文本长度的比值。
语义相似性(Universal Sentence Encoder)
通过Encoder得到当前句子向量,预测句子前后文的单词。句子的表达是通过对Encoder输出的每个位置的词求和取平均得到的。
USE通过增加更多任务来扩展多任务训练,并与一个类似 skip-thought 的模型联合训练,从而在给定文本片段下预测句子上下文。USE可用于各类迁移学习任务(包括情感和语义相似度分析)。
3.攻击模型的效率
用攻击系统对目标模型进行的查询次数来评估攻击模型的效率,查询次数越少,表明效率越高。
二、基于人的评价指标
基于人的评价指标主要包括三个方面:语义相似性、语法性和分类准确性。
先随机混合原始文本和对抗文本,然后让人类对其进行1-5的合理性评分,用于判断对抗样本的语法合理性。
在原始文本和对抗文本的混合样本集中对每个示例进行分类,然后计算两个分类结果的一致性率来评估分类一致性。
判断生成的对抗性文本是否与原始文本相似、模糊或不相似,来评估原始文本和对抗文本的语义相似性。