ACL 2024大奖揭晓!全华人团队用AI破解3000年前甲骨文密码

点击蓝字

7381f30d12c85af09c0cbaf1fbd1f610.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

转载来源:新智元

原文链接:https://mp.weixin.qq.com/s/CJEDRuEb19buOOk4FsvQNQ

转载请联系出处

ACL 2024终于颁奖了!

共有7篇最佳论文,35篇杰出论文,还有时间检验奖、SAC奖、最佳主题论文、最佳资源论文奖等一并公布。

值得一提的是,7篇最佳论文中,Deciphering Oracle Bone Language with Diffusion Models由全华人团队完成。

49051cefbc162fe22838250f95921576.png

975c55fa4cfb655c5644b590ff93edb8.png

7714c3d0520f082b9922f9e45fd00e53.png

今年是国际计算语言学年会(ACL)第26届会议,于8月11-16日在泰国曼谷开幕。

0be0f46e9bd40fe2eb688e95e204b6b7.png

ACL 2024的论文总提交量与2023年相差无几,大致为5000篇,其中940篇论文被接收。

ead5349163fdb80766470bcec106812a.png

本届ACL堪称有史以来,最大的一次,共有72名SAC、716名AC、4208位审稿人。

975篇findings论文,6篇JCL、31篇TACL,还有3个主题演讲,1个panel。

整场会议还包含了18个workshop、6个tutorial、38个demo,60篇SRW论文。

87c58c60d47a3bc71cde12daf873d436.png

论文作者具体提交论文情况如下:

大多数人提交了1篇/2篇论文:有10333名学者提交了1篇,2130人提交了2篇

少部分人提交了多篇论文:有3位作者提交了18篇,6人提交了19篇,18人提交了超20篇。

685ed020c47fb8cab55a42f76218c067.png

一起看看,今年都有哪些团队荣获大奖?

7篇最佳论文

论文1:Deciphering Oracle Bone Language with Diffusion Models

作者:Haisu Guan, Huanxin Yang, Xinyu Wang, Shengwei Han, Yongge Liu, Lianwen Jin, Xiang Bai, Yuliang Liu

机构:华中科技大学、阿德莱德大学、安阳师范学院、华南理工大学

a2bb44b5e8178dbc128fd71ec33a12ed.png

论文地址:https://arxiv.org/pdf/2406.00684

如题所示,华人团队用AI做了一件非常有趣且有价值的事——借助扩散模型破译甲骨文(OBS)。

甲骨文起源于大约3000年前的中国商朝,是语言史上的一块基石。

尽管人们已经发现了数以千计的碑文,但甲骨文的大量内容仍未被破译,为这一古老的语言蒙上了一层神秘的面纱。

论文中,作者介绍了一种采用图像生成AI的新方法,特别是研发出「Oracle Bone Script Decipher」(OBSD)。

378a95a0ee5cb11601c2efb79b368adf.png

利用基于条件扩散的策略,OBSD生成了重要的破译线索,为AI辅助分析古代语言开辟了一条新路。

为了验证其有效性,研究人员在甲骨文数据集上进行了大量实验,量化结果证明了OBSD的有效性。

论文2:Natural Language Satisfiability: Exploring the Problem Distribution and Evaluating Transformer-based Language Models

(暂未提交预印本)

论文3:Causal Estimation of Memorisation Profiles

作者:Pietro Lesci, Clara Meister, Thomas Hofmann, Andreas Vlachos, Tiago Pimentel

机构:剑桥大学、苏黎世联邦理工学院

24ae0fc1a60919f53be85a90316897a8.png

论文地址:https://arxiv.org/pdf/2406.04327

理解LLM的记忆,对实践和社会有着重要的影响,比如研究模型训练动态或防止版权侵权。

先前的研究,将记忆定义为通过实例训练,对模型预测该实例的能力,产生的因果响应。

这个定义依赖于一个反事实:能够观察到模型没有看到该实例时会发生什么。

然而,现有的方法通常针对模型架构,而非特定模型实例估算记忆,很难提供计算效率高,且准确的反事实估计。

这项研究填补了一个重要空白,作者基于计量经济学中的差分设计,提出了一种原则性且高效的新方法来估计记忆化。

利用这种方法,只需在整个训练过程中,观察一小部分实例的行为,就能描述出模型的记忆概况,即模型在整个训练过程中的记忆趋势。

在Pythia模型套件的实验中,研究人员发现:

(1)大型模型的记忆性更强、更持久;

(2)由数据顺序和学习率决定;

(3)在不同规模的模型中具有稳定的趋势,因此大型模型的记忆与小型模型的记忆具有可预测性。

37a40c894716e5e38eff45c5a6f7830e.png

论文4:Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model

作者:Ahmet Üstün, Viraat Aryabumi, Zheng-Xin Yong, Wei-Yin Ko, Daniel D'souza, Gbemileke Onilude, Neel Bhandari, Shivalika Singh, Hui-Lee Ooi, Amr Kayid, Freddie Vargus, Phil Blunsom, Shayne Longpre, Niklas Muennighoff, Marzieh Fadaee, Julia Kreutzer, Sara Hooker

机构:Cohere For AI、布朗大学、Cohere、Cohere For AI Community、卡内基梅隆大学、麻省理工学院

c82520aa26fcba84e73b06b4cf458721.png

论文地址:https://arxiv.org/pdf/2402.07827

今年2月,初创公司Cohere发布了一款名为Aya全新开源的大规模语言生成式大模型,覆盖了超101种语言。

值得一提的是,Aya模型语言模型覆盖范围,是现有开源模型两倍多,超越了mT0和BLOOMZ。

人类评估得分达到75%,在各项模拟胜率测试中得分为80-90%。

这一项目得以启动,汇集了来自119个国家的超3000名独立研究人员的力量。

此外,研究人员还公开了迄今为止最大的多语言指导微调数据集,包含513百万条数据,涵盖114种语言。

论文5:Mission: Impossible Language Models

作者:Julie Kallini, Isabel Papadimitriou, Richard Futrell, Kyle Mahowald, Christopher Potts

机构:斯坦福大学、加州大学尔湾分校、得克萨斯大学奥斯汀分校

eb435cc68dcf48fa79382225ed2717c6.png

论文地址:https://arxiv.org/pdf/2401.06416

乔姆斯基等人曾直言道,LLM在学习人类可能和不可能学习的语言方面具有同等能力。

然而,很少有公开发表的实验证据,支撑这种说法。

为此,研究人员开发了一组复杂程度不同的合成「不可能语言」,每种语言都是通过系统地改变英语数据,并用非自然词序和语法规则设计而成。

这些语言处在不可能语言的连续体上:一端是完全不可能语言,比如随机重排的英语;另一端是在语言学上被认为是不可能语言,比如基于词位置计数规则。

f537ebc5620d79f27801337d0ead0ae8.png

经过一系列评估,GPT-2在学习不可能语言方面,非常吃力,这对核心观点提出了挑战。

更为重要的是,研究者希望这种方法能够引发,更多关于LLM在学习不同类型语言方面能力的研究,以便更好地理解LLM在认知和语言类型学研究中的潜在应用。

论文6:Semisupervised Neural Proto-Language Reconstruction

作者:Liang Lu, Peirong Xie, David R. Mortensen

机构:卡内基梅隆大学、南加州大学

63b72d3bdec0f3cf9e709a7029e08e81.png

论文地址:https://arxiv.org/pdf/2406.05930

现有的原生语言比较重建工作,通常需要全程监督。

然而,历史重建模型只有在使用有限的标注数据进行训练时,才具有实用价值。

对此,研究人员提出了一种半监督历史重建任务。

在这种任务中,模型只需在少量标注数据(有原形的同源集)和大量无标注数据(无原形的同源集)的基础上进行训练。

作者研发出一种用于比较重建的神经架构——DPD-BiReconstructor,其中包含了语言学家比较方法中的一个重要观点:重建词不仅可以从其子词中重建出来,还可以确定性地转换回其子词中。

研究表明,这种架构能够利用未标记的同源词集,在这项新任务中的表现优于现有的半监督学习基线。

论文7:Why are Sensitive Functions Hard for Transformers?

作者:Michael Hahn, Mark Rofin

机构:萨尔大学

44436f5de5478d037eaaaa08df5cd341.png

论文地址:https://arxiv.org/pdf/2402.09963

实证研究已经发现了Transformer模型一系列可学习性偏差和局限性,比如在学习计算简单形式语言(如PARITY)时始终存在困难,而且倾向与低阶函数。

然而,理论上的理解仍然有限,现有的表达能力理论要么过度预测,要么低估了实际的学习能力。

研究人员证明,在Transformer架构下,损失景观(loss landscape)受到输入空间敏感性的约束:

那些输出对输入字符串的多个部分敏感的Transformer模型,在参数空间中占据孤立点,导致在泛化中出现低敏感度偏差。

研究从理论和实证角度证明,最新理论统一了关于Transformer学习能力和偏差的惯犯经验观察,比如它们在饭还中,对地敏感度和低阶函数的偏好,以及在奇偶性问题上难以进行长度泛化。

这表明,理解transformer的归纳偏差不仅需要研究其原则上的表达能力,还需要研究其损失景观。

2篇时间检验奖

论文1:GloVe:Global Vectors for Word Representation(2014)

作者:Jeffrey Pennington, Richard Socher, Christopher Manning

机构:斯坦福大学

8563052fbefd33dbd2a5b3de1cee797e.jpeg

论文地址:https://nlp.stanford.edu/pubs/glove.pdf

词嵌入(word embedding)是2013年至2018年间NLP深度学习方法的基石,并且继续产生重大影响。它们不仅提高了NLP任务的性能,还在计算语义方面具有显著影响,如词相似性和类推。

最具影响力的两种词嵌入方法可能是skip-gram/CBOW和GloVe。与skip-gram相比,GloVe提出得更晚,其相对优势在于其概念上的简单性——直接基于单词的分布特征优化它们在向量空间中的相似性,而不是从简化语言建模的角度,将其作为一组参数进行间接优化。

论文2:Measures of Distibutional Similarity(1999)

作者:Lillian Lee

机构:康奈尔大学

a4b6e6ec001b9eca73e43a9d3324d448.png

论文地址:https://aclanthology.org/P99-1004.pdf

研究分布相似性度量,目的是改进对未见的共现(concurrence)事件的概率估计,相当于另一种方式表征单词间的相似性。

论文的贡献有三方面:对各种度量方式的广泛实证比较;基于相似度函数所包含的信息进行分类;引入了一种新函数,在评估潜在代理分布方面表现出色。

b1ed23e5a175936b89719f2195c3c086.png

9bd059c4c91544e5778721fc696c552e.png

1篇最佳主题论文

论文:OLMo: Accelerating the Science of Language Models

作者:Dirk Groeneveld, Iz Beltagy, Pete Walsh, Akshita Bhagia, Rodney Kinney, Oyvind Tafjord, Ananya Harsh Jha, Hamish Ivison, Ian Magnusson, Yizhong Wang, Shane Arora, David Atkinson, Russell Authur, Khyathi Raghavi Chandu, Arman Cohan, Jennifer Dumas, Yanai Elazar, Yuling Gu, Jack Hessel, Tushar Khot, William Merrill, Jacob Morrison, Niklas Muennighoff, Aakanksha Naik, Crystal Nam, Matthew E. Peters, Valentina Pyatkin, Abhilasha Ravichander, Dustin Schwenk, Saurabh Shah, Will Smith, Emma Strubell, Nishant Subramani, Mitchell Wortsman, Pradeep Dasigi, Nathan Lambert, Kyle Richardson, Luke Zettlemoyer, Jesse Dodge, Kyle Lo, Luca Soldaini, Noah A. Smith, Hannaneh Hajishirzi

机构:艾伦人工智能研究所、华盛顿大学、耶鲁大学、纽约大学、卡内基梅隆大学

e0664ad0432b66e376b35ad5014d5a44.png

论文地址:https://arxiv.org/abs/2402.00838

这项工作是提高大语言模型训练透明性和可重复性的重大进展,这是社区为了取得进展(或者至少是为了让除了行业巨头之外的其他贡献者也能为进展做出贡献)而迫切需要的。

3篇最佳社会影响力奖

论文1:How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to Challenge AI Safety by Humanizing LLMs

作者:Yi Zeng, Hongpeng Lin, Jingwen Zhang, Diyi Yang, Ruoxi Jia, Weiyan Shi

机构:弗吉尼亚理工大学、中国人民大学、加州大学戴维斯分校、斯坦福大学

09e15f6dfc788bac03ae66167df81530.png

论文地址:https://arxiv.org/abs/2401.06373

这篇论文探讨了绕过限制这一人工智能安全主题。它研究了一种在社会科学研究领域开发的方法。该研究极具吸引力,并有可能对社区产生重大影响。

论文2:DIALECTBENCH: An NLP Benchmark for Dialects, Varieties, and Closely-Related Languages

作者:Fahim Faisal, Orevaoghene Ahia, Aarohi Srivastava, Kabir Ahuja, David Chiang, Yulia Tsvetkov, Antonios Anastasopoulos

机构:乔治梅森大学、华盛顿大学、圣母大学、RC Athena

67d674c5f6c35ebd619dae156e5d17b9.png

论文地址:https://arxiv.org/abs/2403.11009

方言变异是自然语言处理和人工智能中一个研究不足的现象。然而,对它的研究具有极高的价值,不仅在语言学和社会角度上,而且对应用也有重要影响。这篇论文提出了一个创新的基准,用于在大语言模型时代研究这一问题。

论文3:Having Beer after Prayer? Measuring Cultural Bias in Large Language Models

作者:Tarek Naous, Michael J. Ryan, Alan Ritter, Wei Xu

机构:佐治亚理工学院

0ff3bf41dcafdf1a6080cf88216bc312.png

论文地址:https://arxiv.org/abs/2305.14456

这篇论文揭示了大语言模型时代的一个重要问题:文化偏见。虽然研究的背景是阿拉伯文化和语言,但结果表明,在设计大语言模型时,我们需要考虑文化的细微差别。因此,可以对其他文化进行类似研究,以推广并评估其他文化是否也受到这一问题的影响。

3篇最佳资源论文

论文1:Latxa: An Open Language Model and Evaluation Suite for Basque

作者:Julen Etxaniz, Oscar Sainz, Naiara Perez, Itziar Aldabe, German Rigau, Eneko Agirre, Aitor Ormazabal, Mikel Artetxe, Aitor Soroa

机构:巴斯克大学

fbeba55286fdee9f02412688fe67d44b.png

论文地址:https://arxiv.org/abs/2403.20266

这篇论文详细地描述了语料库收集和评估数据集的所有细节。尽管他们研究的是巴斯克语言,但这种方法可以扩展用于构建低资源语言的大语言模型。

论文2:Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research

作者:Luca Soldaini, Rodney Kinney, Akshita Bhagia, Dustin Schwenk, David Atkinson, Russell Authur, Ben Bogin, Khyathi Chandu, Jennifer Dumas, Yanai Elazar, Valentin Hofmann, Ananya Harsh Jha, Sachin Kumar, Li Lucy, Xinxi Lyu, Nathan Lambert, Ian Magnusson, Jacob Morrison, Niklas Muennighoff, Aakanksha Naik, Crystal Nam, Matthew E. Peters, Abhilasha Ravichander, Kyle Richardson, Zejiang Shen, Emma Strubell, Nishant Subramani, Oyvind Tafjord, Pete Walsh, Luke Zettlemoyer, Noah A. Smith, Hannaneh Hajishirzi, Iz Beltagy, Dirk Groeneveld, Jesse Dodge, Kyle Lo

机构:艾伦人工智能研究所,加州大学伯克利分校,卡内基梅隆大学、Spiffy AI、麻省理工学院、华盛顿大学

7e64eae19c5b936d7d4faf1351dd05c5.png

论文地址:https://arxiv.org/abs/2402.00159

这篇论文阐述了在为大语言模型准备数据集时,数据策展的重要性。它提供了有价值的见解,可以惠及社区内的广泛受众。

论文3:AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents

作者:Harsh Trivedi, Tushar Khot, Mareike Hartmann, Ruskin Manku, Vinty Dong, Edward Li, Shashank Gupta, Ashish Sabharwal, Niranjan Balasubramanian

机构:纽约州立大学石溪分校、艾伦人工智能研究所、萨尔大学

678c938a6e04e1c38a463183d0a7a498.png

论文地址:https://arxiv.org/abs/2407.18901

这是一个非常令人印象深刻且重要的尝试——构建一个用于人机交互的模拟器和评估环境。这将鼓励为社区制作具有挑战性的动态基准。

21篇领域主席奖

60b66fefba9d4c515af6ad31a2b470c6.png

3bb14d9aa84f005f08ff0473b190e0d5.png

7a974cca12c564f27bc584e2765739d4.png

7fcc9cb8e18404c841d9ab2719fbb84b.jpeg

35篇杰出论文

4560d9e51a5a0514ac2b77e2ea3b0b5a.png

(此图不完整)

3ddc5190401ebd214796cecef1219d51.png

d73149f4b510a78c477f1204804603f5.png

e0e8207758cad503411657ef3822411e.png

fb7b16a2d3745990b977d13d8e30fbdd.png

15288006875fd62095af5715bf28ee61.png

参考资料:

https://x.com/aclmeeting/status/1823664612677705762

往期精彩文章推荐

f2dfc85cb82b01f2f65271a581505727.jpeg

ECCV 2024 一作讲者招募 | 报名通道已开启

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了1800多位海内外讲者,举办了逾600场活动,超700万人次观看。

 90f7fcb090bdb98293b708820e596996.png

我知道你

在看

提出观点,表达想法,欢迎

留言

24251ae317192f0177e8858013999e20.gif

点击 阅读原文 查看ACL作者直播讲解回放!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值