“梗王”大模型,靠讲笑话登上CVPR

中山大学的研究团队利用大喜利游戏数据训练模型,使其具备创造性思维和幽默感,提出CLoT方法提升多模态大模型的创新能力,实验结果超越现有模型。研究还展示了模型在幽默内容生成和泛化方面的优势。
摘要由CSDN通过智能技术生成

谁能想到,只是让大模型讲笑话,论文竟入选了顶会CVPR

没开玩笑,这还真真儿的是一项正儿八经的研究。

例如看下面这张图,如果让你根据它来讲个笑话或梗,你会想到什么?

在这里插入图片描述

现在的大模型看完后会说:

脑子短路。

再看一眼 蜘蛛侠 的海报,大模型会配一句**“刚擦的玻璃不能弄脏”**。

在这里插入图片描述

李云龙奥本海默 也被玩得飞起:

导师读了我的论文之后……

真男人不回头看爆炸。

在这里插入图片描述

还有酱紫的:

在这里插入图片描述

不得不说,大模型这脑洞还是挺大的。

这项研究正是来自中山大学HCP实验室林倞教授团队、Sea AI Lab和哈佛大学等单位,主打的就是打破常规思维思考(Think Outside the Box),探索多模态大模型的创造力。

在这里插入图片描述

要知道,同样的图要是“喂”给ChatGPT(GPT-4)等主流大模型,让它们讲笑话或梗,画风可并非如此:

在这里插入图片描述

太正经了!So boring~~~~

那么中山大学等单位的这个“梗王大模型”,是怎么炼成的呢?

先让大模型看搞笑的数据

在数据的选择上,团队pick的是来自日本的**“大喜利”**(Oogiri)创新响应游戏。

“大喜利”本来是指一系列日本传统戏剧游戏,随着时代的快速发展。现代的“大喜利”,目前一般是指一种叫Tonchi (頓智)的游戏,通常以游戏节目或智力问答节目的形式呈现。

玩家被提供各种多模态内容,可以是简单的问题、随机图像等,然后提示玩家想出幽默的、有创意的反应,以达到令人惊讶的喜剧效果。

例如下面这个“图文到文”的例子:

在这里插入图片描述

玩家要求阅读图像,和上面对应的文字,尝试想出一段文字填入对应的问号“?”位置,使得整个图文可以展示出幽默且有创意的效果。

在第一个例子中,老人向年轻人寻求帮助,从正常的思维来看,可能的填写方式可以是“请问xxx路怎么走?”或者是“可以带我回家吗,我迷路了”之类的。

然而,所给出的“你…你能帮我解开手铐吗?”的写法具有冲击感、幽默感,且看起来确实是这么一回事,让人忍俊不禁。

再看下“图到文”的例子:

在这里插入图片描述

玩家要求看图配文,并使得图文搭配起来具有幽默效果。

这张图看起来是一个很普通的拖车的图片(需要注意的是,在“大喜利”游戏中,一般图片都是很普通的日常图片)。

配文“快让开!我的兄弟伤得很严重”让倾斜着身体45°向上的车看起来像是一个奄奄一息的车子;在道路上快速的驰骋也确实体现了位于下方的车很着急,急着送兄弟去医院。

还有第三种“文到文”的例子:

在这里插入图片描述

玩家被要求根据所给的文字进行回复,使得回复和问题合在一起具备幽默感。

这个例子中的回复似乎在调侃程序员的日常工作主要就是代码的“复制+黏贴”(注:CV工程师除了可以表示computer vision工程师也可以表示ctrl+c/ctrl+v工程师 )。

这项工作主要关注的就是这三种类型的“大喜利”游戏,相关数据Oogiri-GO 如下表所示,含中英日三种语言:

在这里插入图片描述

至于为什么要选择“大喜利”这个游戏,是因为团队认为它是用于探索多模态大模型创新能力的理想平台。具体原因如下:

  • “大喜利”游戏是天然的创新响应任务。如上所提到的,现代“大喜利”也被称为Tonchi (頓智)。“頓”在日文和中文中都表示“突然”,而“智”的意思是“智力、洞察力或直觉”,该游戏天然地要求玩家给出令人眼前一亮、灵光一闪的创新响应;

  • “大喜利”的数据格式是高度合适的。不管是“图文到文”、“图到文”还是“文到文”,这些类型都天然地和目前多模特大模型的输入输出格式吻合,即输入为“图文”,输出仅为“文”。

  • “大喜利”数据质量高。创新是一件很难的事情,即使是人类,因此能作为“创新”相关的数据集并不多。鉴于该游戏长期在互联网上非常活跃(在中文社区中,一般也叫日式神吐槽/冷吐槽),而且带有大量点评数据,比如点赞数等等。正好积累了大量高质量人类创新幽默响应可以被用于研究。

再让大模型打破常规思考

传统的链式思考(Chain-of-Thought,CoT)方法是一种顺序思考过程,通过逐步推理指导大模型进行逻辑推理,每个后续的思考都建立在前一个思考的基础上:

在这里插入图片描述

这一思考过程一定程度上确保了精确性和严谨性,但对于创造性问题表现不佳。

因此,团队探索了一种新的非顺序、创造性思维范式——跳跃思维Leap-of-Thought(LoT)。

在这里插入图片描述

这种范式涉及到思考关联性和知识跳跃。远距离的思考也被认为是联想。

与CoT强调逻辑紧密的思维链不同,LoT强调打破常规思维思考问题,激发模型的创造力。

基于此,团队在Oogiri-GO数据集基础之上,进一步提出了一套激发多模态大模型创造力的训练方法CLoT

在这里插入图片描述

具体而言,CLoT包括两个阶段。

首先是关联性指令微调

在这一阶段,本文设计生成式和判别式模板,将Oogiri-GO数据集转换为指令微调的训练数据,用于训练多模态大模型,使得模型具备初步的创新响应能力。

其次是探索性自我调整

在这一阶段中,本文首先通过设计远关联的条件词,促使(1)中的模型生成多样化且与输入远关联的回答,并设计筛选流程,获得可靠的新LoT数据。随后,新数据被转换成指令微调的训练数据,用于进一步微调模型。

这一阶段可以再细分为两个步骤:

  • 探索性远程关联:这一步骤鼓励LLM在给定的弱关联条件下产生创新的回应。通过这种方式,LLM学习在看似不相关的概念之间建立联系,从而生成多样化的创意内容。

  • 自我精炼:在探索性远程关联的基础上,通过设计一系列筛选流程,收集到的创意回应被用来进一步训练LLM。这样做可以提高LLM在处理创造性任务时的表现,使其能够生成更高质量和多样性的内容。

性能评估

为了尽可能全面评估CLoT,这项研究基于Oogiri-GO数据集,设计了选择题和排序题作为量化评估方式。

实验结果表明,CLoT能够显著提高多模态大模型(如Qwen和CogVLM)的性能,显著超越包括GPT4v在内的先进模型。

另外,与其他先进推理框架CoT等相比,在各项量化指标下也是有显著优势的。

在这里插入图片描述

此外,研究团队还通过用户调查,证实了CLoT帮助模型生成了更好的幽默内容。

在这里插入图片描述

研究团队还考虑到了CLoT的泛化性,用“看云猜物CGG”和“发散思维测试DAT”两个其他任务评估CLoT的性能,实验结果显示CLoT相对于基准模型具有更好的准确度,说明CLoT具备不错的泛化能力。

DAT是一种用于评估人类联想创造能力的测试。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

123?spm=1001.2014.3001.5501)这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

  • 19
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值