2023ACL best paper ,仿生人会梦到电子羊吗,论文笔记

标题:《Do Androids Laugh at Electric Sheep? Humor “Understanding” Benchmarks from The New Yorker Caption Contest》

一、摘要总结

1、现在的大型神经网络已经可以生产笑话,所以本文探究它们能否真正的理解“幽默”。 (并非简单的文字和图片的匹配,“幽默”可能需要一些前提知识,或者是一些像“冷笑话”没 理头类型的“幽默”)
2、通过纽约客漫画标题竞赛的三个任务来挑战AI模型:

1)将标题与漫画相匹配(在几个无关和一个有关的标题中选择最恰当的标题)
2)识别获胜的标题(在几个相关的标题中选择最适合的标题)
3)解释为什么获胜的标题是最合适的
三个任务的难度是逐渐增加的

3、本文主要使用两种模型:

1)多模态模型:可直接识别图像,进行以上任务
2)纯语言模型:输入对图像的多方面描述,输出以上任务的结果(简而言之就是将图像描述后输入一些无法接受图像输入的模型)

4、结果:

简单地说,现在的模型无法真正的理解“幽默”
具体而言(包括介绍部分内容)
1)最好的多模态模型在匹配任务(任务1)比人类表现落后30多个精度点(最好的多模态模型fine-tuned CLIP VIT-L/14获得了62%的准确率,人类达到了94%)
2)在超过2/3的情况下,人类撰写的解释(任务3)也比最好的机器撰写的解释更受青睐(这里的最佳解释模型为 5-shot GPT-4)

二、介绍部分

1、数据来源:

《纽约客》每周都会发布一张没有字幕的卡通图片,邀请读者提交自己最有趣的英文图片说明。编辑们从成千上万的投稿中选出三个入围者。然后,由读者投票选择最终赢家。(任务1中的标题就来自最终赢家的标题和可能来自其他图片的标题,任务2中的标题来自相同图片读者贡献的标题)

2、作者表明这些任务之所以困难,是因为获奖的标题和图像之间的联系可能相当微妙,标题的有趣可能是对人类的经验、文化和想象力的考验。
3、作者进行了两个设置:

1)from pixels:模型在测试时只被授予访问卡通图像的权限,并且必须执行计算机视觉(即直接访问图像)
2)from description:允许模型访问新收集的、人工撰写的卡通描述语料库,从而模拟访问人类级别的计算机视觉系统或者,或者,促进对没有内置图像处理组件的模型进行基准测试。(即访问对图像的描述)
其中from description访问的注释丰富而多面,它们]描述了图像的整体及其位置和实体,图像的不寻常之处,以及对笑话的解释。作者将收集和发布的这些注释视为工作的重大贡献。

三、数据集和任务设置部分

1、语料库汇编了14年《纽约客》标题竞赛的内容,包括:

1)无标题的漫画
2)当周的参赛作品
3)由编辑选出的三名决赛选手(标题)
4)对于部分竞赛,通过众包(应该是大众评选)收集作品的质量估计

2、语料库有两个来源:

1)Jain等人,大约250场比赛数据(每场比赛约6k,总计150万条数据),该来源的人群通过NEXT平台进行打分,共计有1.14亿条评分数据。而且作者还额外抽取了三个没被编辑选择的标题,作为额外的决赛标题(这里是为了避免因为编辑们个人对幽默与“真正”幽默的偏差)
2)Shahaf等人,包括5M个标题。

3、任务设置中对摘要中提到三个任务进行了详细的介绍,同时引入了两个评价的指标(在任务1和任务2中):

1)NYAcc:选出的最终结果是《纽约客》中选出的优胜者
2)CrowAcc:选出的最终结果被大众选为高质量的结果(避免编剧个人偏差)

4、关于图片的注释(用作from description中的模型输入或者作为from pixels在训练时使用的附加信息):

1)描述场景背景,如“办公室”、“公园”
2)描述场景内容,即发生了什么
3)解释是什么使场景不同寻常,即在哪方面可能让人觉得幽默
4)注释2-3个维基百科链接,作为可能相关的知识前提

PS:对于众包工人作者团队支付最低15美元/小时的报酬,对于低分辨率图片的处理等还 提供了额外的报酬

四、实验部分

为了评估模型的表现,研究者采用了人工评估、成对比较以及自动度量(如BLEU-4和词级困惑度),确保了评估的全面性和可靠性。

1、作者将704副漫画分为5组交叉验证,以用于比赛测试中
2、FP(from pixels)模型(视觉+语言):

1)CLIP:(一种强大的多模态深度学习模型,专门设计用于理解和关联图像与文本数据。CLIP的核心思想是通过大规模的对比式预训练,使模型学会捕捉图像与文本之间的语义相似性,从而具备在多种下游任务中直接进行零样本(zero-shot)或少样本(few-shot)推理的能力。)作者对该模型参数进行了微调以对其语料库中的数据。同时因为CLIP不是生成模型,作者还使用InfoNCE、提示等来输出
2)OFA—>LM:(OFA旨在通过一个统一的框架来处理跨模态(如视觉、语言等)和多种任务(如图像生成、视觉定位、图片描述、图片分类、文本生成等)。它采用序列到序列(sequence-to-sequence)的学习框架,以实现模态和任务的统一,意味着同一个模型可以应对多种不同的输入类型(如图像和文本)以及完成多种不同的输出任务。LM用于将结果输出出来)将输出与人类撰写的描述比对

3、FD(from description)模型(将描述作为输入):

1)T5:(核心理念是将所有自然语言处理(NLP)任务统一表述为“文本到文本”(Text-to-Text)的形式,从而实现一个模型解决多种任务的目标。)
2)GPT-3,GPT3.5,GPT4

4、基线(即评判最低标准):统计了三位(有点少了吧!)不了解漫画的人的表现估计(ACC、CrowdAcc、NYAcc)
5、软硬件细节:T5、CLIP、OFA使用pytorch中8个A100 gpu进行训练,使用transformer实现T5,T5-11B使用deepspeed训练,T5-Large和CLIP使用Accelerate训练
6、匹配和质量的排名结果(见图):

在这里插入图片描述

其中还得到的其他结论:1)模型基本优于描述的基线;2)CLIP倾向于匹配(任务1),OFA+T5-11B在质量排名(任务2)方面更有竞争力

7、作者通过自问自答的方式来表现结论,结论如下:

1)模型利用了图像的上下文来生成更好的解释(使用T5-11B和只有标题的T5-11B测试)
2)计算机视觉是高质量解释生成的瓶颈(使用T511B(FD设置)和OFA—>T5-11B测试)
3)更大的T5模型能产生更好的解释(使用T5-11B和T5-Large测试)
4)与上下文学习相比,LLM模型的微调对于解释生成没有帮助(使用FT-GPT3和Incontext(=5-shot)GPT3测试)
5)有监督的解释对GPT-4(论文中表现最好的模型)是有帮助的(使用5shot-GPT4和0shot-GPT4测试)
6)GPT4优于GPT3(使用5shot-GPT4和5shot-GPT3测试)
补充:0-shot learning,即零样本学习,是指在没有见过任何特定任务示例的情况下,仅凭模型自身的泛化能力和对语言的理解,来完成从未在训练中遇到过的任务。5-shot learning,即五样本学习,是few-shot learning(少量样本学习)的一种形式,其中“5”代表模型在处理任务时获得了五个相关示例作为参考。这些示例通常被称为“shots”或“in-context examples”,它们展示了任务的具体形式、期望的输入输出格式以及潜在的解决方案。
7)最佳模型GPT-4无法想人类一样解释笑话(使用GPT4与人类测试)
8)有些竞赛比较难,即图片与标题本身理解困难程度不同,即使是人类在不同竞赛的表现也不同,分类不同难度的竞赛是未来工作的基础。

五、相关工作部分

1、幽默:

幽默根源理论的三个“大家庭”:
1)敌意,对某人或某事的优越感
2)释放约束
3)不协调
大多数《纽约客》标题竞赛漫画都涉及不协调的情况。

2、NLP+标题大赛:

识别最有趣的最佳表现特征包括:困惑、与图像设置和不可思议描述的匹配、可读 性、专有名词
作者的数据包含了之前研究人员慷慨发布的数据。
作者的扩展是
(1)增加了两个新任务;
(2)使用新的数据/资源/模型来策划排名对
(3)评估两种不同的受众偏好

3、衡量对标题的偏好:

虽然幽默最终是主观的,但比赛的工作已经研究了对评分者平均偏好的建模。 Tanczos等人(2017)为标题竞赛设计了质量排名算法他们的众包系统NEXT被 《纽约客》使用。

4、多模态和计算式幽默:

Chandrasekaran等人探索图像中的幽默识别,
Hasan等人探讨了ted演讲/情景喜剧中的笑声预测。
Fallianda等人研究政治漫画。
Chakrabarty等人最近提出了一个比喻语言的NLI版本,它可以是幽默的。
一些工作试图检测一个句子是否幽默
更难评估的目标是自动生成的

5、解释幽默:Chowdhery等人对笑话解释进行了定性研究

六、结论部分

目前的模型还无法像人类一样识别、理解、评估“幽默”,人工智能仍然还有很大的成长空间,且作者的工作中1)使用的模型可以基于参赛者反馈;2)加注释的语料库以及解释可用于后续工作的进行,提出未来的工作重点是生成幽默的字幕,将提供的反馈付诸实施。

七、限制部分

用一句话说就是,幽默源于特定的语言、地域、历史、文化、风格等因此,本研究的结果无法代表或涵盖所有类型的幽默。作者仅对于平均偏好进行检测。

八、总结

论文不仅提供了新的幽默理解任务和数据集,还对不同类型的AI模型进行了深入对比,为后续研究提供了有价值的基准。此外,研究者公开了模型、代码、排行榜和语料库,为学术界和工业界进一步探索和改进AI对幽默的理解能力提供了宝贵的资源。
这篇论文通过系统性的实验设计和严谨的数据分析,展示了当前AI在幽默理解方面的局限性,指出了未来研究需重点关注的方向。论文所提出的基准测试和公开的资源将有力推动该领域研究的进步。

  • 9
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
ACL在网络安全的应用仿真-网络安全论文-计算机论文全文共7页,当前为第1页。ACL在网络安全的应用仿真-网络安全论文-计算机论文全文共7页,当前为第1页。ACL在网络安全的应用仿真-网络安全论文-计算机论文 ACL在网络安全的应用仿真-网络安全论文-计算机论文全文共7页,当前为第1页。 ACL在网络安全的应用仿真-网络安全论文-计算机论文全文共7页,当前为第1页。 ——文章均为WORD文档,下载后可直接编辑使用亦可打印—— 摘要:ACL作为热门的网络技术之一,被广泛应用于网络管理领域中。文章结合企业对网络的常用访问控制需求,并利用思科PacketTracer仿真,模拟了ACL在网络安全中的应用。 关键词:ACL;网络安全;仿真 1ACL概述 1.1ACL基本概念 ACL在网络安全的应用仿真-网络安全论文-计算机论文全文共7页,当前为第2页。ACL在网络安全的应用仿真-网络安全论文-计算机论文全文共7页,当前为第2页。 访问控制列表(AccessControlList,ACL),工作在OSI参考模型的第3层,用于通过建立的访问规则对进出网络中的数据包进行访问控制,进而达到对网络的控制和保护目的。访问控制列表每条语句组成一个规则,决定数据包的运行通过或拒绝通过。ACL可分为标准的访问控制列表和扩展的访问控制列表两类,标准的访问控制列表基于源地址做过滤策略,适应场合有限,不能进行复杂的条件过滤。扩展的访问控制列表可通过源IP地址、目的IP地址、端口号、协议等诸多信息来规定数据包的处理动作,对经过的数据流进行判断、分类和过滤。通过访问控制列表可以实现控制网络流量,提高网络性能;提供访问权限,实现访问控制等功能,是目前重要的安全保护技术,被广泛应用于互联网。 1.2ACL工作原理 ACL可以工作在路由器、交换机等网络设备上,主要采用数据包过滤技术。以路由器为例,当数据包到达路由器的转发端口时,首先ACL在网络安全的应用仿真-网络安全论文-计算机论文全文共7页,当前为第3页。ACL在网络安全的应用仿真-网络安全论文-计算机论文全文共7页,当前为第3页。判断该端口是否有ACL,没有则直接转发;如果有则匹配ACL的转发规则,根据转发规则来决定数据包permit或deny;如果permit,则直接转发;如果deny则丢弃该数据包并向数据源发送目标不可达的ICMP报文或终止TCP的连接请求。 1.3ACL使用原则 在配置和使用ACL时由于每个接口、每个方向、每种协议只能设置一个ACL,同时ACL按顺序比较,直找到符合条件的那条以后就不再继续比较,因此应注意以下3点原则。(1)最小权限原则:即只给予受控对象完成任务所必须的最小权限。(2)最靠近受控对象原则:即所有的网络层访问权限控制要尽量距离受控对象最近。(3)默认丢弃原则:即每个访问控制列表最后都隐含了一条denyany规则。 2ACL在网络安全中应用场景设计为研究 ACL在网络安全的应用仿真-网络安全论文-计算机论文全文共7页,当前为第4页。ACL在网络安全的应用仿真-网络安全论文-计算机论文全文共7页,当前为第4页。 ACL在网络安全中的应用,这里设计如下的企业应用场景。某企业有管理部、员工部、财务部3个部门,另企业架设了自己的FTP服务和Web服务器。其中VLAN10模拟管理部,VLAN20模拟员工部,VLAN30模拟财务部,VLAN40模拟服务器区。www1,www2模拟外网的Web服务器,PC3模拟未授权的网络。为仿真ACL的网络隔离、网络保护、访问控制等安全功能,提出如下网络安全需求:(1)内网、外网都可以访问企业的Web服务器,但FTP服务器只能被校内访问。(2)管理部可以访问员工部、财务部,但员工部不能访问财务部。(3)管理部可以访问外网www1和www2服务器,员工部只能访问www1,而财务部拒绝访问一切外网[1]。 3ACL关键配置 鉴于篇幅有限,本部分配置仅为ACL配置部分的关键代码。(1)限制外网对FTP的访问,仿真保护特定的内网目标。Router(config)#access-list101denytcpanyhost192.168.4.2eq21Router(coACL在网络安全的应用仿真-网络安全论文-计算机论文全文共7页,当前为第5页。ACL在网络安全的应用仿真-网络安全论文-计算机论文全文共7页,当前为第5页。nfig)#access-list101permitipanyanyRouter(config)#ints1/0Router(config-if)#ipaccess-group101in(2)管理部可以访问员工部、财务部,但员工部不能访问财务部,仿真内网的访问控制。Switch(config)#access-list1permit192.168.1.00

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值