本文是LLM系列文章,针对《Large-scale moral machine experiment on large language models》的翻译。
摘要
大型语言模型(LLM)的快速发展及其与自动驾驶系统的潜在集成需要了解它们的道德决策能力。虽然我们之前的研究使用道德机器实验框架考察了四个著名的LLM,但LLM发展的动态格局需要更全面的分析。在这里,我们评估了51种不同LLM的道德判断,包括多种版本的专有模型(GPT、Claude、Gemini)和开源替代品(Llama、Gemma),以评估它们在自动驾驶场景中与人类道德偏好的一致性。使用联合分析框架,我们评估了LLM反应在道德困境中与人类偏好的一致程度,并检查了模型大小、更新和架构的影响。结果表明,超过100亿个参数的专有模型和开源模型与人类判断相对接近,在开源模型中,模型大小与人类判断的距离呈显著负相关。然而,模型更新并没有始终如一地提高与人类偏好的一致性,许多LLM过度强调特定的伦理原则。这些发现表明,虽然增加模型大小可能会自然导致更多类似人类的道德判断,但在自动驾驶系统中的实际实施需要仔细考虑判断质量和计算效率之间的权衡。我们的全面分析为自主系统的伦理设计提供了至关重要的见解,并强调了在人工智能道德决策中考虑文化背景的重要性。