ICLR 2024 | 知易行难：探索大模型价值观的全新动态评测范式-CSDN博客

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/137581030

该研究深入探讨大型语言模型（LLMs）的伦理价值观，提出DeNEVIL框架，通过动态提示生成算法揭示LLMs的潜在道德弱点。同时构建了MoralPrompt数据集，包含2397个提示，覆盖500多个价值原则，用于评估LLMs的伦理价值观。此外，提出了VILMO方法，通过上下文对齐提升LLMs的道德价值一致性。实验表明，大多数模型存在价值观不一致问题，而VILMO能有效改善这一状况。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

©PaperWeekly 原创 · 作者 | 段士童

单位 | 复旦大学硕士研究生

研究方向 | 大语言模型价值观对齐

摘要

近年来，大型语言模型（LLMs）取得了前所未有的突破。然而，LLMs 在日常应用中可能会生成不道德内容，从而引发社会风险。虽然当前研究对特定问题如偏见、毒性等内容进行了广泛研究，但从道德哲学的角度探讨 LLMs 的内在价值观的工作仍然较少。

本研究通过道德基础理论深入探讨 LLMs 的伦理价值，并提出了一种新的提示生成算法 DeNEVIL，旨在动态挖掘 LLMs 的价值观可能存在弱点并以生成方式揭示伦理违规行为，从而测试其潜在的价值倾向。

在此基础上，我们构建了 MoralPrompt，一个包含 2,397 个提示的高质量数据集，涵盖 500 多个价值原则，并对一系列 LLMs 的内在价值进行了基准测试。我们发现大多数模型存在价值观不对齐问题，需要进一步的伦理价值对齐。

为此，我们提出了 VILMO—一种基于上下文进行对齐的方法，通过学习生成适当的价值指令来提高 LLMs 输出的价值符合性。我们的方法适用于黑盒和开源模型，为后续的 AI 伦理研究奠定了基础。

论文题目：

DeNEVIL: Towards Deciphering and Navigating the Ethical Values of Large Language Models via Instruction Learning

论文链接：

https://arxiv.org/abs/2310.11053

论文录用：

ICLR 2024

代码链接：

https://valuecompass.github.io/

介绍

随着模型规模的不断增大和预训练语料的不断增多，大型语言模型（LLMs）在众多下游任务上的展现出了出色的能力，人工智能从“阳春白雪”逐渐转变为实用的“下里巴人”。

然而随着大型语言模型越来越深入地融入人类生活，其伦理价值观可能对社会带来不可预测的风险，特别是当这些价值由少数开发者确定时，可能会带来“少数人暴政”（‘tyranny of the crowd worker’）。目前在人工智能道德伦理研究领域的大多数关注焦点还在于特定伦理问题，如社会偏见、毒性语言、隐私等问题。

同样，也会有研究从道德哲学的角度评估大语言模型的价值观，这些方法主要依赖于静态的判别式评估，主要分为两大类：1）道德判断：将大语言模型作为道德分类器，评估特定行为是否违反了特定人类价值观；2）道德问卷：使用为人类设计的调查问卷，来测试模型的价值观。

然而，这些方法面临两个挑战：1）可靠性: 随着语言模型训练语料不断增多，可能存在数据泄漏的问题。2）有效性：中国有句古话“知易行难”，道德判断和问卷调查本质上在测试大语言模型对于人类价值观的理解能力，而不是它们行为是否符合价值原则。因此，LLMs可能会生成用户偏好的“正确”答案。

在这项工作中，我们深入研究了对大语言模型价值观进行评估的方法，主要有以下几点贡献：