Large-scale moral machine experiment on large language models

本文是LLM系列文章,针对《Large-scale moral machine experiment on large language models》的翻译。

大型语言模型上的大规模道德机器实验

摘要

大型语言模型(LLM)的快速发展及其与自动驾驶系统的潜在集成需要了解它们的道德决策能力。虽然我们之前的研究使用道德机器实验框架考察了四个著名的LLM,但LLM发展的动态格局需要更全面的分析。在这里,我们评估了51种不同LLM的道德判断,包括多种版本的专有模型(GPT、Claude、Gemini)和开源替代品(Llama、Gemma),以评估它们在自动驾驶场景中与人类道德偏好的一致性。使用联合分析框架,我们评估了LLM反应在道德困境中与人类偏好的一致程度,并检查了模型大小、更新和架构的影响。结果表明,超过100亿个参数的专有模型和开源模型与人类判断相对接近,在开源模型中,模型大小与人类判断的距离呈显著负相关。然而,模型更新并没有始终如一地提高与人类偏好的一致性,许多LLM过度强调特定的伦理原则。这些发现表明,虽然增加模型大小可能会自然导致更多类似人类的道德判断,但在自动驾驶系统中的实际实施需要仔细考虑判断质量和计算效率之间的权衡。我们的全面分析为自主系统的伦理设计提供了至关重要的见解,并强调了在人工智能道德决策中考虑文化背景的重要性。

1 引言

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值