利用wordnet选择同义词,在同义词中选择对输出概率影响最大的最为替代词。
score的方法是首先计算每个单词的显著程度(其实就是把这个单词去掉之后看对最后分类概率的影响)综合其候选的替代词的影响程度的加权分数。排序之后依次按照显著程度递减顺序对词做替换,直到分类出错。
优点:
对原始样本改动的词数量少(PWWS本来就是一种greedy策略)
缺点:
- 候选词只有一个
- 候选词没有判断词性、句意、语法的改变和合理程度
- 黑箱策略,多次query(候选词+score),还需要排序,时耗大,且攻击效果并不理想
- 仅适用于classification(依赖分类的概率分布),攻击样本迁移性较差
ps.看了它生成的攻击样本的example之后也觉得这样本质量太低了(换人也会错)