本文是LLM系列文章,针对《Characteristic AI Agents via Large Language Models》的翻译。
摘要
大型语言模型(LLM)的发展显著提高了聊天机器人系统的性能。许多研究人员致力于开发聊天机器人的特性。虽然已经有使用LLM开发角色驱动聊天机器人的商业产品,但值得注意的是,这一领域的学术研究仍然相对较少。我们的研究重点是通过模拟不同环境中的真实个体,研究LLM在构建特征人工智能代理方面的性能。目前的调查主要集中在扮演简单角色上。为了应对这一研究空白,我们为特征人工智能代理任务创建了一个基准,包括数据集、技术和评估指标。一个名为“Character100”的数据集是为这个基准构建的,它包括维基百科上访问量最大的人,用于语言模型的角色扮演。利用构建的数据集,我们对各种环境下的LLM进行了全面评估。此外,我们还设计了一套用于定量表现评估的自动指标。实验结果强调了LLM在构建特征人工智能代理方面进一步提高能力的潜在方向。该基准可在https://github.com/nuaa-nlp/Character100获得.