Persona Hub——从海量网络数据中建立了一个包含10 亿个角色的大型数据集,建立角色驱动的数据合成新方法

介绍

论文地址:https://arxiv.org/abs/2406.20094
与普通的人工生成数据不同,合成数据是由模型和算法生成的数据,由于可用作大型语言模型(LLMs)的训练数据,因此近年来受到越来越多的关注

然而,虽然可以扩大合成数据的数量,但很难扩大其多样性,因此需要各种各样的提示来创建多样化的合成数据。

本文提出了一种角色驱动的数据合成方法–一种创建多样化合成数据的新方法,并介绍了如何利用这种方法从大量网络数据中构建一个角色集(Persona Hub)–一个包含十亿个角色的大规模数据集。本文通过建立一个角色集,并举例说明了该方法的各种用途。

角色驱动的数据综合方法

本文提出了一种名为 "角色驱动数据合成 "的方法,用于创建大规模的多样化合成数据。

如下图所示,只要在数据合成提示中添加 “角色”,就能促使 LLM 对 "角色 "做出反应,从而创造出与众不同的合成数据。

在这里插入图片描述
此外,由于几乎所有的 LLM 用例都可以与特定的角色相关联,因此一旦建立了一个全面的角色集合,就有可能大规模地创建综合的合成数据。下面是使用这一特性的一个例子。

角色枢纽

在本文中,我们从大量的网络数据中构建了一个 "角色枢纽"(Persona Hub),这是一个包含十亿个不同角色(约占世界人口的 13%)的大型数据集

为了从海量网络数据中建立角色枢纽,本文提出了两种方法**:文本到角色角色到角色**。

文本到人物

这种方法的基础是,鉴于具有特定职业经历和文化背景的人在阅读和写作文本时具有独特的特征,可以从文本中推断出特定的角色。

基于这一想法,如下图所示,可以向 LLM 询问**"谁可能[读/写/喜欢/不喜欢/…]文本? ",从而获得与任何给定文本**相对应的角色。
在这里插入图片描述
此外,如下图所示,可以根据输入文本的内容来调整 "角色 "的粒度:如果输入文本包含详细信息(如数学科目或超导学术论文),那么生成的 "角色 "也会更加具体。

在这里插入图片描述
因此,将 "从文本到角色 "技术应用于海量的网络文本数据,就有可能获得数十亿个不同粒度的各种 “角色”。

角色对角色

尽管上文提到的 "从文本到角色 "是一种可扩展的方法,几乎涵盖了所有类型的角色,但有些角色在网络上的知名度较低,通过 "从文本到角色 "的方法获得这些角色的可能性也较小。

因此,为了补充文本到角色(Text-to-Persona)中难以获得的角色,本文提出了一种称为 “角色到角色”(Persona-to-Persona)的方法,即从文本到角色(Text-to-Persona)中获得的角色推导出人际角色。

角色到角色(Persona-to-Persona)是一种通过人际关系获得各种角色的方法,如下图所示,通过询问**“谁与给定的角色关系密切?”**来生成 LLM 的角色,例如,一个儿童护士的角色(A儿科护士)来生成病人(患者)和同事(同事)的角色。
在这里插入图片描述

在本文中,通过对文本到角色(Text-to-Persona)获取的每个角色重复进行六次角色到角色扩展,成功地将角色集(Persona Hub)变成了一个更大、更丰富的数据集。

使用案例

为了展示 Persona Hub 的多功能性,本文介绍了在现实世界中使用 Persona Hub 的各种实例。

(i) 知识丰富的文本

Persona Hub 可轻松应用于创建知识丰富的纯文本,以帮助进行 LLM 前期培训和后期培训。

这样,**法律硕士就可以应用从角色中心提取的角色,鼓励他们撰写具有高度专业性的文章,**如下图所示。

在这里插入图片描述
将这一过程扩展到 Persona Hub 的 10 亿个角色中,就可以轻松获得大量知识渊博、内容丰富的文本,这些文本涵盖了不同粒度的主题。

(ii) 游戏 NPC

Persona Hub 的一个直接而实用的应用是创建各种非玩家角色(NPC),以配合游戏的规模

只要向 LLM 提供有关游戏背景和世界的信息,就可以鼓励他们把自己在 Persona Hub 中的角色形象投射到游戏世界中的人物身上。

例如,这样就可以在游戏(魔兽世界中使用 Persona Hub 角色创建 NPC,如下图所示,这可以大大减少在游戏设计过程中创建 NPC 的工作量。
在这里插入图片描述

(iii) 工具(功能)开发

Persona Hub 允许您模拟各种真实用户,并创建用户可能需要的工具

下图是一个例子(例如,帮助出租车司机检查交通状况的工具)。
在这里插入图片描述

虽然这些只是接口定义,但它们可以很容易地转换成代码实现,如下图所示。

在这里插入图片描述

通过采取这些步骤,我们希望不必每次都从头开始构建工具。

总结

结果如何?在这篇文章中,我们提出了一种角色驱动的数据合成方法–一种创建多样化合成数据的新方法,并从大量网络数据中构建了一个包含十亿个角色的大规模数据集–角色集、本文通过举例说明该方法的各种用途,展示了它的多功能性。

Persona Hub 已经包含了十亿个角色,但挑战依然存在:这些角色只关注关键方面,而没有考虑详细信息(如家庭背景、历史背景、生活经历等)

这些信息的使用使每个角色都更加独特,这对未来来说非常令人兴奋,不仅因为它将使 Persona Hub 能够扩大规模,还因为它为个性化对话等实际应用提供了可能性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

知来者逆

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值