Developing Safe and Responsible Large Language Model

本文是LLM系列文章,针对《Developing Safe and Responsible Large Language Model : Can We
Balance Bias Reduction and Language Understanding in Large Language Models?》的翻译。

开发安全和负责任的大型语言模型:我们能在大型语言模型中平衡偏见减少和语言理解吗?

摘要

大型语言模型(LLMs)已经推进了各种自然语言处理(NLP)任务,如文本生成和翻译等。然而,这些模型通常会生成可能使偏见永久化的文本。现有的减轻这些偏见的方法通常会损害知识保留。本研究探讨了LLM是否可以在不牺牲知识或理解的情况下产生安全、无偏见的输出。我们介绍了安全和负责任的大型语言模型(SRLLM),该模型在固有安全的微调LLM之上进行了指令微调,以减少生成文本中的偏见。我们开发了一个专门的数据集,其中包含不安全和相应安全变体的示例,以训练SRLLM识别和纠正有偏见的文本。在我们的专业数据集和分布外测试集上的实验表明,SRLLM在保持知识完整性的同时有效地减少了偏差。这种性能超越了传统的对较小语言模型和仅依赖提示技术的基础LLM的微调。我们的研究结果表明,指令微调是在保留知识的同时尽量减少LLM偏见的有效策略。代码和数据集可以在SR-LLM上访问。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值