字符级的白箱gradiant方法—HotFlip
提出了基于character的one-hot梯度攻击的方法。同样可以应用到word-level.
将character的更改用向量表示,针对下游loss,寻找梯度最大的方向更改。
缺点是一个单词只更改一个character,而且没有score;word-level词表过大,one-hot的计算消耗怎么考虑。
字符级的白箱gradiant方法—HotFlip
提出了基于character的one-hot梯度攻击的方法。同样可以应用到word-level.
将character的更改用向量表示,针对下游loss,寻找梯度最大的方向更改。
缺点是一个单词只更改一个character,而且没有score;word-level词表过大,one-hot的计算消耗怎么考虑。