ICLR 2024 | 知易行难:探索大模型价值观的全新动态评测范式

该研究深入探讨大型语言模型(LLMs)的伦理价值观,提出DeNEVIL框架,通过动态提示生成算法揭示LLMs的潜在道德弱点。同时构建了MoralPrompt数据集,包含2397个提示,覆盖500多个价值原则,用于评估LLMs的伦理价值观。此外,提出了VILMO方法,通过上下文对齐提升LLMs的道德价值一致性。实验表明,大多数模型存在价值观不一致问题,而VILMO能有效改善这一状况。
摘要由CSDN通过智能技术生成

f009daa71f78b080b4dd9cac7958332e.gif

©PaperWeekly 原创 · 作者 | 段士童

单位 | 复旦大学硕士研究生

研究方向 | 大语言模型价值观对齐

cc28b8434fd46b2022ff289ae0874a12.png

摘要

近年来,大型语言模型(LLMs)取得了前所未有的突破。然而,LLMs 在日常应用中可能会生成不道德内容,从而引发社会风险。虽然当前研究对特定问题如偏见、毒性等内容进行了广泛研究,但从道德哲学的角度探讨 LLMs 的内在价值观的工作仍然较少。

本研究通过道德基础理论深入探讨 LLMs 的伦理价值,并提出了一种新的提示生成算法 DeNEVIL,旨在动态挖掘 LLMs 的价值观可能存在弱点并以生成方式揭示伦理违规行为,从而测试其潜在的价值倾向。

在此基础上,我们构建了 MoralPrompt,一个包含 2,397 个提示的高质量数据集,涵盖 500 多个价值原则,并对一系列 LLMs 的内在价值进行了基准测试。我们发现大多数模型存在价值观不对齐问题,需要进一步的伦理价值对齐。

为此,我们提出了 VILMO—一种基于上下文进行对齐的方法,通过学习生成适当的价值指令来提高 LLMs 输出的价值符合性。我们的方法适用于黑盒和开源模型,为后续的 AI 伦理研究奠定了基础。

5c4b923670159ad133b0779ddfd0b06d.png

论文题目:

DeNEVIL: Towards Deciphering and Navigating the Ethical Values of Large Language Models via Instruction Learning

论文链接:

https://arxiv.org/abs/2310.11053

论文录用:

ICLR 2024

代码链接:

https://valuecompass.github.io/

4386cf6c124f4961007501d826023cc0.png

介绍

随着模型规模的不断增大和预训练语料的不断增多,大型语言模型(LLMs)在众多下游任务上的展现出了出色的能力,人工智能从“阳春白雪”逐渐转变为实用的“下里巴人”。

然而随着大型语言模型越来越深入地融入人类生活,其伦理价值观可能对社会带来不可预测的风险,特别是当这些价值由少数开发者确定时,可能会带来“少数人暴政”(‘tyranny of the crowd worker’)。目前在人工智能道德伦理研究领域的大多数关注焦点还在于特定伦理问题,如社会偏见、毒性语言、隐私等问题。

同样,也会有研究从道德哲学的角度评估大语言模型的价值观,这些方法主要依赖于静态的判别式评估,主要分为两大类:1)道德判断:将大语言模型作为道德分类器,评估特定行为是否违反了特定人类价值观;2)道德问卷:使用为人类设计的调查问卷,来测试模型的价值观。

然而,这些方法面临两个挑战:1)可靠性: 随着语言模型训练语料不断增多,可能存在数据泄漏的问题。2)有效性:中国有句古话“知易行难”,道德判断和问卷调查本质上在测试大语言模型对于人类价值观的理解能力,而不是它们行为是否符合价值原则。因此,LLMs可能会生成用户偏好的“正确”答案。

在这项工作中,我们深入研究了对大语言模型价值观进行评估的方法,主要有以下几点贡献:

  • 我们深入探讨了 LLMs 的伦理价值观,基于道德基础理论&#

  • 17
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。
1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值