本文是LLM系列文章,针对《Beyond Human Norms: Unveiling Unique Values of Large
Language Models through Interdisciplinary Approaches》的翻译。
摘要
大型语言模型(LLM)的最新进展彻底改变了人工智能领域,但也带来了潜在的安全和道德风险。解读LLM的内在价值对于评估和降低其风险至关重要。尽管对LLM的价值观进行了广泛的调查,但之前的研究在很大程度上依赖于社会科学中以人为本的价值体系。然后,一个自然的问题出现了:LLM是否具有超越人类的独特价值?深入研究后,这项工作提出了一个新的框架ValueLex,利用人类人格/价值研究的心理学方法,从头开始重建LLM独特的价值体系。基于词汇假设,ValueLex引入了一种生成方法,从30多个LLM中提取不同的价值,通过因子分析和语义聚类合成了一个分类法,最终形成了一个全面的价值框架。我们确定了三个核心价值维度,即能力、性格和诚信,每个维度都有特定的子维度,揭示了LLM拥有一个结构化的、尽管不是人类的价值体系。基于该系统,我们进一步开发了量身定制的投影测试,以评估和分析不同模型大小、训练方法和数据源的LLM的值倾向。我们的框架培养了理解LLM的跨学科范式,为未来的人工智能对齐和监管铺平了道路。
1 引言
2 相关工作
3 方法
4 结果和分析
5 结论和未来工作
通过开创一种构建和评估LLM内在价值的新方法,我们为能够严格评