论文浅尝 | COKE:用于机器心智理论的认知知识图谱(ACL2024)

论文链接:https://arxiv.org/abs/2305.05390

1. 动机

尽管人工智能在语言理解和生成方面取得了显著进展,但要让机器具备与人类相似的社交互动能力,仍然是一个巨大的挑战。尤其是在理解语言背后复杂的人类心理状态和社交动机方面,现有的AI系统仍然显得力不从心。这种局限性主要源于两个方面:

首先,大多数现有的AI系统和自然语言处理技术主要依赖于对文本数据的统计分析和模式识别。这些方法虽然在处理表面的语言结构和简单语义方面表现出色,但它们通常缺乏对语言背后深层次含义的理解能力。换句话说,这些系统往往无法捕捉到人类交流中隐含的意图、情感和信念等心理状态。

其次,人类社交互动的复杂性远远超出了简单的信息交换。在真实的社交场景中,人们不仅需要理解对方的言语,还需要根据对方的言行、环境背景以及社会常识等因素,推断出对方的心理状态和可能的反应。这种能力,即所谓的心理理论(ToM),是人类社交智能的核心组成部分,但对于现有的AI系统来说,却是一个难以逾越的障碍。

2. 贡献

本文的主要贡献有:

(1) 提出了第一个用于机器心理理论的认知知识图谱。作者将人类心理理论实例化为超过45,000个手动验证的认知链集合,这为访问和学习提供了基本的心理理论能力。

(2) 通过将COKE与LLaMA-2(Touvron等人,2023年)结合,构建了一个强大的认知语言模型COLM,以便预测知识图谱外情境下的认知链。

(3) 进行了广泛的实验来评估COLM和典型大型语言模型的心理理论能力。结果显示,COLM在零样本和少样本设置中都优于强大的基线模型,如GPT-4(Achiam等人,2023年),这在所有认知生成任务中都通过自动和人类评估得到了证明,这反过来又证明了COKE的高质量。

(4) 进一步证实了COKE在增强社交应用中的潜力,并证明了其在下游情感支持对话任务中的有效性。

3. COKE数据集构建

图1 COKE数据集构建流程

3.1 数据集定义

根据关于“心智理论”的心理学研究,作者在COKE中指定了五类节点:情境、线索、思想、行动和情感。COKE的基本单元定义为以下认知链条:情境⇒线索⇒思想⇒(行动+情感)。此结构描绘了心智理论的完整认知过程:当一个人面对特定情境时,某些线索会触发其思想,进而伴随行动和情感。为了区分在特定情境下认知链条的乐观或悲观倾向,作者进一步定义其极性为正向或负向。实际上,认知链条的极性由其思想节点决定。需要注意的是,COKE中作者省略了边(即节点间的连接)的定义,因为当节点的类型已知时,边可以很容易地被推断出来。以下详细说明各类节点:

情境(Situations):COKE中的情境指的是个人(可能)与他人互动的社会环境。参考DailyDialog(Li等,2017),一个广泛使用的日常社交对话数据集,作者选择了五个最常见的社会话题:学校(学校里发生的事)、工作(工作中的事件)、旅游(旅行和娱乐)、关系(个人间的社交活动)和日常生活(家庭中的事件)。每个话题的详细信息见附录A。

线索(Clues):COKE中的线索指的是具体化认知过程的触发因素。在特定情境下,人的心理活动由相关的主观和客观因素触发并引导(Meinhardt-Injac等,2018)。根据Baldwin(1992)的分类,线索主要涉及人格、知识、经验、教育、客观事实、社会规则等特定信息。

思想(Thoughts):COKE中的思想指的是对情境的认知反应,充当外部环境与个体认知之间的桥梁,因此可以被视为心智理论的核心(Westbrook等,2011)。如前所述,认知链条的极性由思想节点决定,乐观的思想标记为正向,而悲观的思想标记为负向。

行动(Actions):COKE中的行动指的是在特定思想触发后的行为反应。需要注意的是,行动的语义含义可能不符合其极性标注。例如,图1中的行动“我在镜子前练习演讲稿”是中性的句子,但它是负面思想“我可能会搞砸演讲”的结果,因此仍然标记为负面。

情感(Emotions):COKE中的情感指的是在特定思想触发后的情感反应。一般来说,作者将情感限制在六大基本类别(Phillip等,1987):爱、惊讶、快乐、悲伤、愤怒和恐惧。前三种情感出现在正向认知链中,后三种则出现在负向认知链中。

3.2 数据集构造

图2 Prompt

作者使用GPT-3.5对上述的五个节点产生新的数据,每个节点的Prompt设计如图3所示,对于Situation,作者设计了两个可遍历的字段,分别是400个不同的Event和5个不同的situation,从而产生了2000个不同的Situation;紧接着,按照顺序产生Thoughts、Clues、Actions和Emotions。

3.3 数据集过滤

在收集原始数据后,作者手动注释一小部分数据,并制定几条规则来区分好数据和坏数据。随后,作者使用COKE中节点的详细定义和过滤规则作为教程,训练八名注释者。在通过注释资格测试后,他们被要求选择和修订五种类型的节点的原始数据。

如表1所示,最终保留的数据包含1,200个情境、9,788个想法、21,677个线索、19,875个行动和9,788个情感,总体保留率约为70%。这一统计数据证明,即使是经过精心提示,大多数强大的大型语言模型(如GPT-3.5)所展示的心智理论(ToM)能力仍然不够令人满意,从而进一步强调了构建COKE的必要性。在链接和排序获得的节点后,作者在COKE中以总共45,369个认知链实例化ToM,包含23,252个正面链和22,117个负面链,均为英文。

表1 过滤后的数据信息

4. COLM模型训练

表2 知识图谱转换成指令微调

通过咨询构建的认知知识图谱 COKE,可以通过将面临的情况与知识图谱中的类似情况进行匹配,然后检查涉及的认知链(即实体链接),来获得基本的心智理论(ToM)能力。但显然,COKE 只收集有限的情况,无法涵盖现实世界中无限多样的情况。受到自动知识图谱补全方法如 COMET(Bosselut 等人,2019)的启发,作者提出了一个认知语言模型 COLM 来应对未见情况并扩大 COKE 应用的范围。COLM 建立在大型语言模型(LLMs)之上,旨在整合 LLMs 内部的常识知识以及 COKE 提供的 ToM 能力。为此,作者首先将认知过程分解为一系列认知生成任务,然后使用 COKE 中收集的数据对 LLaMA-2(Touvron 等人,2023)进行微调。

4.1 认知生成任务

在 COKE 中,一个针对心智理论(ToM)的认知过程被实例化为包含情况、线索、思想、行动和情感的顺序化认知链。因此,给定一个情况,作者可以将认知过程分解为四个生成任务,如下表 2 所示。这四个任务以流水线方式工作,通过链接它们生成的结果可以恢复完整的认知链。1)线索生成。面对特定情况时,人类可以自动区分可能影响信念并触发思想的因素。2)思想生成。在特定情况下,相关的线索触发并唤起多样化的人类心理活动,即思想。3)行动生成。在特定思想的驱动下,作者会采取相应的行动来实现作者的信念并达成作者的目标。注意这里作者省略了线索,因为它们的影响在很大程度上被触发的思想所覆盖。4)情感生成。在某种特定情况下形成特定思想后,人类会自然产生相应的情感来表达对情况的态度和观点。由于情感被限制在六个类别中,因此这个任务是一个分类任务。通过以流水线方式链接上述四个任务,作者可以恢复认知链“情况 ⇒ 线索 ⇒ 思想 ⇒(行动+情感)”,从而保留 ToM 的完整认知过程。由于 COKE 中的每个认知链都标有极性,每个认知生成任务可以进一步细分为正面和负面子任务(例如,正面思想生成和负面思想生成)。

4.2 训练 COLM

在将认知链分解为四个认知生成任务之后,作者可以相应地处理 COKE 中的数据以获得训练样本。为了计算效率,作者将 COLM 设计为一个多任务可控生成模型,以便它能够同时完成四个认知生成任务,并进一步控制输出的极性(即正面或负面)。如表 2 所示,对于每个任务和极性,作者在输入 X 中插入特定标记(即,[NegClue]、[PosClue])以指导 COLM 的生成过程。在实现上,COLM 被构建为一个仅解码器架构,并用 LLaMA-2(Touvron 等人,2023)初始化。该模型使用 AdamW 优化器(Loshchilov 和 Hutter,2019)和 LoRA(Hu 等人,2021)进行训练,学习率为 3e-4,批量大小为 32,在五个 Tesla V100 GPU 上进行训练。整个训练过程大约需要 9 个小时。对于基线模型,作者构建手动提示以使它们能够完成认知生成任务。作者评估了所有基线 LLMs 的 0 次、2 次和 5 次性能。更多细节可以在附录 F 中找到。由于数据不足,作者在验证集上报告性能。

5. 实验结果

作者将数据集按照1:9划分测试集和训练集,作者在训练集上训练,在测试集上进行评估,实验结果如表3所示。可以观察到COKE的数据集的质量很高,可以赋予LLM心理理论,训练的COLM模型可以有效地内化ToM能力,并具备泛化能力。

表3 在验证集上的自动评估结果

接着作者又进行了人工评估,结果如表4所示,说明COLM生成的认知链更容易被人类接受,侧面说明COKE数据集的优越性。

表4 人工评估结果

最后作者将COLM应用到Emotional Support Conversation (ESC)任务中,具体做法是使用COLM对ESC的训练数据进行标注,实现数据增强,然后训练,最后的结果报告在表5,结果说明了COLM的可行性。

表5 在ESC任务上的评估

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值