2023ACL best paper ,仿生人会梦到电子羊吗，论文笔记_do androids laugh at electric sheep? humor “unders-CSDN博客

本文链接：https://blog.csdn.net/sfgsdfg2516/article/details/137043091

标题：《Do Androids Laugh at Electric Sheep? Humor “Understanding” Benchmarks from The New Yorker Caption Contest》

一、摘要总结

1、现在的大型神经网络已经可以生产笑话，所以本文探究它们能否真正的理解“幽默”。（并非简单的文字和图片的匹配，“幽默”可能需要一些前提知识，或者是一些像“冷笑话”没理头类型的“幽默”）

2、通过纽约客漫画标题竞赛的三个任务来挑战AI模型：

1）将标题与漫画相匹配（在几个无关和一个有关的标题中选择最恰当的标题）
2）识别获胜的标题（在几个相关的标题中选择最适合的标题）
3）解释为什么获胜的标题是最合适的
三个任务的难度是逐渐增加的

3、本文主要使用两种模型：

1）多模态模型：可直接识别图像，进行以上任务
2）纯语言模型：输入对图像的多方面描述，输出以上任务的结果（简而言之就是将图像描述后输入一些无法接受图像输入的模型）

4、结果：

简单地说，现在的模型无法真正的理解“幽默”
具体而言（包括介绍部分内容）
1）最好的多模态模型在匹配任务（任务1）比人类表现落后30多个精度点（最好的多模态模型fine-tuned CLIP VIT-L/14获得了62%的准确率，人类达到了94%）
2）在超过2/3的情况下，人类撰写的解释（任务3）也比最好的机器撰写的解释更受青睐（这里的最佳解释模型为 5-shot GPT-4）

二、介绍部分

1、数据来源：

《纽约客》每周都会发布一张没有字幕的卡通图片，邀请读者提交自己最有趣的英文图片说明。编辑们从成千上万的投稿中选出三个入围者。然后，由读者投票选择最终赢家。（任务1中的标题就来自最终赢家的标题和可能来自其他图片的标题，任务2中的标题来自相同图片读者贡献的标题）

2、作者表明这些任务之所以困难，是因为获奖的标题和图像之间的联系可能相当微妙，标题的有趣可能是对人类的经验、文化和想象力的考验。

3、作者进行了两个设置：

1）from pixels：模型在测试时只被授予访问卡通图像的权限，并且必须执行计算机视觉（即直接访问图像）
2）from description：允许模型访问新收集的、人工撰写的卡通描述语料库，从而模拟访问人类级别的计算机视觉系统或者,或者，促进对没有内置图像处理组件的模型进行基准测试。（即访问对图像的描述）
其中from description访问的注释丰富而多面，它们]描述了图像的整体及其位置和实体，图像的不寻常之处，以及对笑话的解释。作者将收集和发布的这些注释视为工作的重大贡献。

三、数据集和任务设置部分

1、语料库汇编了14年《纽约客》标题竞赛的内容，包括：

1）无标题的漫画
2）当周的参赛作品
3）由编辑选出的三名决赛选手（标题）
4）对于部分竞赛，通过众包（应该是大众评选）收集作品的质量估计

2、语料库有两个来源：

1）Jain等人，大约250场比赛数据（每场比赛约6k，总计150万条数据），该来源的人群通过NEXT平台进行打分，共计有1.14亿条评分数据。而且作者还额外抽取了三个没被编辑选择的标题，作为额外的决赛标题（这里是为了避免因为编辑们个人对幽默与“真正”幽默的偏差）
2）Shahaf等人，包括5M个标题。

3、任务设置中对摘要中提到三个任务进行了详细的介绍，同时引入了两个评价的指标（在任务1和任务2中）：

1）NYAcc：选出的最终结果是《纽约客》中选出的优胜者
2）CrowAcc：选出的最终结果被大众选为高质量的结果（避免编剧个人偏差）

4、关于图片的注释（用作from description中的模型输入或者作为from pixels在训练时使用的附加信息）：

1）描述场景背景，如“办公室”、“公园”
2）描述场景内容，即发生了什么
3）解释是什么使场景不同寻常，即在哪方面可能让人觉得幽默
4）注释2-3个维基百科链接，作为可能相关的知识前提

PS：对于众包工人作者团队支付最低15美元/小时的报酬，对于低分辨率图片的处理等还提供了额外的报酬

四、实验部分

为了评估模型的表现，研究者采用了人工评估、成对比较以及自动度量（如BLEU-4和词级困惑度），确保了评估的全面性和可靠性。

1、作者将704副漫画分为5组交叉验证，以用于比赛测试中

2、FP（from pixels）模型（视觉+语言）：

1）CLIP：（一种强大的多模态深度学习模型，专门设计用于理解和关联图像与文本数据。CLIP的核心思想是通过大规模的对比式预训练，使模型学会捕捉图像与文本之间的语义相似性，从而具备在多种下游任务中直接进行零样本（zero-shot）或少样本（few-shot）推理的能力。）作者对该模型参数进行了微调以对其语料库中的数据。同时因为CLIP不是生成模型，作者还使用InfoNCE、提示等来输出
2）OFA—>LM：（OFA旨在通过一个统一的框架来处理跨模态（如视觉、语言等）和多种任务（如图像生成、视觉定位、图片描述、图片分类、文本生成等）。它采用序列到序列（sequence-to-sequence）的学习框架，以实现模态和任务的统一，意味着同一个模型可以应对多种不同的输入类型（如图像和文本）以及完成多种不同的输出任务。LM用于将结果输出出来）将输出与人类撰写的描述比对

3、FD（from description）模型（将描述作为输入）：

1）T5：（核心理念是将所有自然语言处理（NLP）任务统一表述为“文本到文本”（Text-to-Text）的形式，从而实现一个模型解决多种任务的目标。）
2）GPT-3，GPT3.5，GPT4

4、基线（即评判最低标准）：统计了三位（有点少了吧！）不了解漫画的人的表现估计（ACC、CrowdAcc、NYAcc）

5、软硬件细节：T5、CLIP、OFA使用pytorch中8个A100 gpu进行训练，使用transformer实现T5，T5-11B使用deepspeed训练，T5-Large和CLIP使用Accelerate训练

6、匹配和质量的排名结果（见图）：

在这里插入图片描述

其中还得到的其他结论：1）模型基本优于描述的基线；2）CLIP倾向于匹配（任务1），OFA+T5-11B在质量排名（任务2）方面更有竞争力

7、作者通过自问自答的方式来表现结论，结论如下：

1）模型利用了图像的上下文来生成更好的解释（使用T5-11B和只有标题的T5-11B测试）
2）计算机视觉是高质量解释生成的瓶颈（使用T511B（FD设置）和OFA—>T5-11B测试）
3）更大的T5模型能产生更好的解释（使用T5-11B和T5-Large测试）
4）与上下文学习相比，LLM模型的微调对于解释生成没有帮助（使用FT-GPT3和Incontext（=5-shot）GPT3测试）
5）有监督的解释对GPT-4（论文中表现最好的模型）是有帮助的（使用5shot-GPT4和0shot-GPT4测试）
6）GPT4优于GPT3（使用5shot-GPT4和5shot-GPT3测试）
补充：0-shot learning，即零样本学习，是指在没有见过任何特定任务示例的情况下，仅凭模型自身的泛化能力和对语言的理解，来完成从未在训练中遇到过的任务。5-shot learning，即五样本学习，是few-shot learning（少量样本学习）的一种形式，其中“5”代表模型在处理任务时获得了五个相关示例作为参考。这些示例通常被称为“shots”或“in-context examples”，它们展示了任务的具体形式、期望的输入输出格式以及潜在的解决方案。
7）最佳模型GPT-4无法想人类一样解释笑话（使用GPT4与人类测试）
8）有些竞赛比较难，即图片与标题本身理解困难程度不同，即使是人类在不同竞赛的表现也不同，分类不同难度的竞赛是未来工作的基础。

五、相关工作部分

1、幽默：

幽默根源理论的三个“大家庭”:
1)敌意，对某人或某事的优越感
2)释放约束
3)不协调
大多数《纽约客》标题竞赛漫画都涉及不协调的情况。

2、NLP+标题大赛：

识别最有趣的最佳表现特征包括:困惑、与图像设置和不可思议描述的匹配、可读性、专有名词
作者的数据包含了之前研究人员慷慨发布的数据。
作者的扩展是
(1)增加了两个新任务;
(2)使用新的数据/资源/模型来策划排名对
(3)评估两种不同的受众偏好

3、衡量对标题的偏好:

虽然幽默最终是主观的，但比赛的工作已经研究了对评分者平均偏好的建模。 Tanczos等人(2017)为标题竞赛设计了质量排名算法他们的众包系统NEXT被《纽约客》使用。

4、多模态和计算式幽默:

Chandrasekaran等人探索图像中的幽默识别，
Hasan等人探讨了ted演讲/情景喜剧中的笑声预测。
Fallianda等人研究政治漫画。
Chakrabarty等人最近提出了一个比喻语言的NLI版本，它可以是幽默的。
一些工作试图检测一个句子是否幽默
更难评估的目标是自动生成的

5、解释幽默：Chowdhery等人对笑话解释进行了定性研究

六、结论部分

目前的模型还无法像人类一样识别、理解、评估“幽默”，人工智能仍然还有很大的成长空间，且作者的工作中1）使用的模型可以基于参赛者反馈；2）加注释的语料库以及解释可用于后续工作的进行，提出未来的工作重点是生成幽默的字幕，将提供的反馈付诸实施。

七、限制部分

用一句话说就是，幽默源于特定的语言、地域、历史、文化、风格等因此，本研究的结果无法代表或涵盖所有类型的幽默。作者仅对于平均偏好进行检测。

八、总结

论文不仅提供了新的幽默理解任务和数据集，还对不同类型的AI模型进行了深入对比，为后续研究提供了有价值的基准。此外，研究者公开了模型、代码、排行榜和语料库，为学术界和工业界进一步探索和改进AI对幽默的理解能力提供了宝贵的资源。
这篇论文通过系统性的实验设计和严谨的数据分析，展示了当前AI在幽默理解方面的局限性，指出了未来研究需重点关注的方向。论文所提出的基准测试和公开的资源将有力推动该领域研究的进步。