基于蜕变测试的自然语言模型歧视性输出检测与缓解

该研究通过蜕变测试检测和缓解自然语言模型中的歧视性输出,利用蜕变关系生成测试用例,针对敏感词汇变异,通过主动变异和词向量相似性进行测试。此外,借鉴差分隐私实现模型输出的公平性,降低不同群体间的输出差异,以确保模型的公平性和准确性。
摘要由CSDN通过智能技术生成

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!

本期AI TIME PhD IJCAI专场,我们有幸邀请到了来自香港科技大学计算机科学与工程系的博士生马平川,为我们带来他的精彩分享——基于蜕变测试的自然语言模型歧视性输出检测与缓解Metamorphic Testing and Certified Mitigation of Fairness Violations in NLP Models。

 

马平川:香港科技大学计算机科学与工程系博士生,导师是王帅教授,主要研究方向为信息安全和软件工程。

一、Motivation

图1 Sentiment analysis by training a CNN model using the Large Movie Review Dataset

我们发现即使在非常简单的CNN模型里,当文本中的单词做了一些改变后,比如在上图的Sentiment analysis例子中,将“actor”换为“actress”或者在“actor”前加“Chinese”,模型的属性会发生比较大的变化,而这种变化大部分情况下是不被期望的,所以我们希望用自动化的方法来检测自然语言模型中的歧视性输出。

 

当我们将AI模型部署到现实生活中,一个值得关注的问题出现了——模型是否存在对特定群体有歧视性的输出?比如,一些基于AI的招聘工具就被证实存在性别歧视。

 

二、Preliminaries

1. Metamorphic Testing

图2 Metamorphic Transformation

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值