计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-19

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-19


目录


1. What makes your model a low-empathy or warmth person: Exploring theOrigins of Personality in LLMs

Authors: Shu Yang, Shenzhe Zhu, Ruoxuan Bao, Liang Liu, Yu Cheng, Lijie Hu, Mengdi Li, Di Wang
https://arxiv.org/abs/2410.10863
什么让你的模型成为一个低同理心或温暖的人:探索大型语言模型中个性的起源

摘要

本文探讨了大型语言模型(LLMs)在生成类人文本和表现出与人类相似的个性特征方面的显著能力。然而,LLMs如何编码和表达诸如宜人性和冲动性等特征的机制仍不清楚。基于社会决定论理论,研究了长期背景因素(如家庭环境和文化规范)与短期压力(如外部指令)如何相互作用,塑造和影响LLMs的个性特征。通过在模型内部使用可解释的特征来引导LLMs的输出,探索了这些背景和压力因素如何在不需要进一步微调的情况下导致模型特征的变化。此外,从个性的角度提出了这些因素对模型安全性的潜在影响。

研究背景

随着大型语言模型(LLMs)的发展,它们在模仿人类行为和展示独特、一致的个性特征方面的能力越来越受到关注。这些个性特征与社会偏见、隐私风险以及传播错误信息或产生有缺陷的代码的倾向等重要的信任问题密切相关。尽管已有研究表明LLMs具有个性特征,但我们仍然不完全理解这些特征是如何从预训练数据中编码到它们的参数中,以及它们如何表现为类似于低同理心或温暖导向的人的行为。

算法模型

本研究基于社会决定论理论,将其与LLMs的个性发展联系起来。研究者们提出了两种主要策略来赋予LLMs特定的个性特征:(i)通过在大型数据集上训练LLMs,类似于让它们接触长期背景因素;(ii)通过明确的指令(例如“你是一个友好的助手”)引导LLMs采取特定的个性特征。此外,研究者们还利用稀疏自编码器(SAEs)和基于表示的方法来提取与个性相关的特征,并引导模型的生成。

核心创新点

  • 提出了一种新的零样本学习方法,使用码本特征和稀疏自编码器(SAEs)来有效地从LLMs中去除特定信息,同时保留模型在无关数据上的性能。
  • 首次成功地在LLMs中实现了具有上下文相关性的特定主题的“遗忘”,标志着机器“遗忘”在实际应用中迈出了重要一步。
  • 通过利用瓶颈来分解激活空间并调节信息流,实现了目标信息的高效“遗忘”,同时保持了模型在其他任务上的整体性能。

实验效果

实验结果表明,通过调整背景特征,模型在各种安全性问题上的表现有所下降,这表明增强背景特征可能会降低模型的安全性。此外,研究还发现,模型对于短期压力的敏感性不同,这可能与模型的大小和训练数据的多样性有关。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

后续潜在研究方向

  • 如何进一步提高LLMs的个性化和上下文适应性,同时保持其在安全性和偏见问题上的表现。
  • 探索如何将这些发现应用于其他类型的LLMs,以及如何将这些技术扩展到其他领域,如医疗和金融。
  • 研究如何通过更精细的控制来引导LLMs的行为,以更好地符合人类的价值观和期望。

推荐阅读指数:★★★★☆

2. Fill In The Gaps: Model Calibration and Generalization with Synthetic Data

Authors: Yang Ba, Michelle V. Mancenido, and Rong Pan
https://arxiv.org/abs/2410.10864

填补空白:使用合成数据进行模型校准和泛化

摘要

随着机器学习模型的快速发展,在校准模型性能方面面临着重大挑战。大多数现有的校准方法由于验证数据的多样性不足,通常会对模型准确性产生负面影响,导致泛化能力降低。为了解决这个

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

sp_fyf_2024

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值