Beyond Human Norms: Unveiling Unique Values of Large Language Models through Interdisciplinary

本文是LLM系列文章,针对《Beyond Human Norms: Unveiling Unique Values of Large
Language Models through Interdisciplinary Approaches》的翻译。

超越人类规范:通过跨学科方法揭示大型语言模型的独特价值

摘要

大型语言模型(LLM)的最新进展彻底改变了人工智能领域,但也带来了潜在的安全和道德风险。解读LLM的内在价值对于评估和降低其风险至关重要。尽管对LLM的价值观进行了广泛的调查,但之前的研究在很大程度上依赖于社会科学中以人为本的价值体系。然后,一个自然的问题出现了:LLM是否具有超越人类的独特价值?深入研究后,这项工作提出了一个新的框架ValueLex,利用人类人格/价值研究的心理学方法,从头开始重建LLM独特的价值体系。基于词汇假设,ValueLex引入了一种生成方法,从30多个LLM中提取不同的价值,通过因子分析和语义聚类合成了一个分类法,最终形成了一个全面的价值框架。我们确定了三个核心价值维度,即能力、性格和诚信,每个维度都有特定的子维度,揭示了LLM拥有一个结构化的、尽管不是人类的价值体系。基于该系统,我们进一步开发了量身定制的投影测试,以评估和分析不同模型大小、训练方法和数据源的LLM的值倾向。我们的框架培养了理解LLM的跨学科范式,为未来的人工智能对齐和监管铺平了道路。

1 引言

2 相关工作

3 方法

4 结果和分析

5 结论和未来工作

通过开创一种构建和评估LLM内在价值的新方法,我们为能够严格评

  • 3
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值