论文解读 | ACL'24最佳论文:利用扩散模型破译甲骨文语言

点击蓝字

76a71f3b3fd2c985d5ff268a9cbe8102.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

b1d7b75b236facce3171a8ed63ffc985.jpeg

点击 阅读原文 观看作者讲解回放!

作者简介

管海粟,华中科技大学本科生在读。

主要研究方向为图像生成、图像分割、多模态大模型。获得国家奖学金、校三好学生奖学金、华中科技大学本科特优生等荣誉。发表ACL 2024 Best Paper一篇,一篇scientific Data,申请4项发明专利。获得多项学科竞赛一等奖。

概述

甲骨文(OBS)起源于大约3000年前的中国商朝,是中国语言史的基石,其出现时间早于许多现有的书写体系。尽管已发现数以万计的甲骨文铭文,但大量甲骨文尚未被破译,这使得这种古老的语言笼罩着一层神秘的面纱。近年来人工智能技术快速兴起,可能为甲骨文的解读开辟新天地。传统的自然语言处理方法依赖于大量文本语料库,而古代历史语言往往缺乏这种优势。现有的人工智能在甲骨文领域的研究主要聚焦于对已破译甲骨文的识别和检测上面,但是对于未破译甲骨文的研究却依旧存在挑战。因此,本报告介绍了我们推出的甲骨文破译模型OBSD(Oracle Bone Script Decipher)。项目利用扩散模型,模拟汉字演变的过程,将甲骨文文字图像转化为现代汉字图像,通过产生未破译甲骨文的现代汉字来反推其含义,从而辅助破译甲骨文。此外,OBSD还提出局部结构采样(Localized Structural Sampling)和零样本细化(Zero-shot Refinement)两个方法提高图像生成质量。OBSD在与其他图像到图像转换模型的对比中取得了更好的性能,并在未破译的甲骨文文字上面进行了大量的定性实验,有望为甲骨文的破译提供字形或者图像上的线索。

论文地址:https://arxiv.org/pdf/2406.00684

代码链接:https://github.com/guanhaisu/OBSD

Research Background

Background Information

中国文字博物馆对甲骨文释读成果进行了两次公示。首次公示于2019年,复旦大学的蒋玉斌先生获得一等奖,清华大学的王子杨先生获得二等奖。2023年的第二次公示中,一等奖增加至两名,二等奖增至三名,且收到的论证报告数量从65篇上升至85篇,反映出国内学者对甲骨文破译工作兴趣的增长。

336657e83e17360c2bebc91a2334c43d.png


甲骨文,作为中国古代的一种文字,主要用于记录和占卜,其历史可以追溯到大约3000年前的商朝时期。这种文字被刻在动物的骨骼上,是中国古代文明的重要遗产。近年来,在美国山脉的岩壁上发现的类似甲骨文的刻痕,进一步证实了甲骨文在全球范围内的历史影响。

从3300年前至今,甲骨文经历了五个至六个发展阶段。它起源于公元前1500年左右的商朝,随后发展到青铜器上的铭文,再经过篆文、春秋战国、隶书等时期的文字变化,最终演变成现代汉字。这一漫长的演变过程见证了甲骨文的丰富历史和在中国文字发展中的重要作用。

f84404c2f7b232906dd09a3230949855.png


甲骨文之所以重要,是因为它将中国的历史推前了约一千年,为中华民族的悠久历史提供了实证,这对那些质疑中国历史的西方国家具有重要的意义。甲骨文不仅记录在动物骨骼上,也通过现代数字化技术得到了保存和研究,如河南安阳出土的甲骨文的扫描图像,以及专家对拓片的手工处理,都使得这些古老文字得以更好地传承和研究。

93d1e8d6d353503340d349a650c2dad6.png


甲骨文破译是指将这些古老文字与现代汉字相匹配的过程。尽管某些甲骨文字与现代字形有明显相似之处,但很多字形的演变并不直观,这使得破译工作颇具挑战性。

目前,已知的甲骨文字约有4500个,其中大约三分之一已被破译。破译工作不仅涉及字形的直接对比,还需要结合语义、历史背景、考古发现和文字学知识。例如,蒋玉斌先生在破译“蠢”字时,就考虑了文字的发音。因此,甲骨文破译是一个跨学科的复杂任务,人工智能在这一领域的应用也日益广泛。

5b63389cad811c48f73c33b7b66d79e5.png


甲骨文破译对计算机从业人员来说存在三大难点。首先,甲骨文缺乏标准化编码系统,这与现代汉语和英语的标准化文本和文献形成对比,使得计算机处理变得复杂。其次,缺少综合语料库,甲骨文的完整故事或事件记录极为罕见,难以形成可供分析的语料库。最后ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值