计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-19-CSDN博客

本文链接：https://blog.csdn.net/fyf2007/article/details/143066647

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-19

1. What makes your model a low-empathy or warmth person: Exploring theOrigins of Personality in LLMs

Authors: Shu Yang, Shenzhe Zhu, Ruoxuan Bao, Liang Liu, Yu Cheng, Lijie Hu, Mengdi Li, Di Wang
https://arxiv.org/abs/2410.10863
什么让你的模型成为一个低同理心或温暖的人：探索大型语言模型中个性的起源

摘要

本文探讨了大型语言模型（LLMs）在生成类人文本和表现出与人类相似的个性特征方面的显著能力。然而，LLMs如何编码和表达诸如宜人性和冲动性等特征的机制仍不清楚。基于社会决定论理论，研究了长期背景因素（如家庭环境和文化规范）与短期压力（如外部指令）如何相互作用，塑造和影响LLMs的个性特征。通过在模型内部使用可解释的特征来引导LLMs的输出，探索了这些背景和压力因素如何在不需要进一步微调的情况下导致模型特征的变化。此外，从个性的角度提出了这些因素对模型安全性的潜在影响。

研究背景

随着大型语言模型（LLMs）的发展，它们在模仿人类行为和展示独特、一致的个性特征方面的能力越来越受到关注。这些个性特征与社会偏见、隐私风险以及传播错误信息或产生有缺陷的代码的倾向等重要的信任问题密切相关。尽管已有研究表明LLMs具有个性特征，但我们仍然不完全理解这些特征是如何从预训练数据中编码到它们的参数中，以及它们如何表现为类似于低同理心或温暖导向的人的行为。

算法模型

本研究基于社会决定论理论，将其与LLMs的个性发展联系起来。研究者们提出了两种主要策略来赋予LLMs特定的个性特征：（i）通过在大型数据集上训练LLMs，类似于让它们接触长期背景因素；（ii）通过明确的指令（例如“你是一个友好的助手”）引导LLMs采取特定的个性特征。此外，研究者们还利用稀疏自编码器（SAEs）和基于表示的方法来提取与个性相关的特征，并引导模型的生成。