又是一种human-in-loop的方法,用于检测攻击言论,采用检测、收集攻击样本、重新训练的方法让模型更加鲁棒
论文笔记(5.15,文本抗击,defense)--Build it Break it Fix it for Dialogue Safety
最新推荐文章于 2022-06-28 20:52:12 发布
又是一种human-in-loop的方法,用于检测攻击言论,采用检测、收集攻击样本、重新训练的方法让模型更加鲁棒