真全!GitHub上出现了一个353种语言资源的汇总

据联合国科教文组织统计

世上现存的7000+种语言,超过四百种濒临灭绝

全世界平均每两个星期就有一门语言彻底消失……

于是,有人看不下去了

他们在GitHub上开发了一个项目

专门对353种语言信息做了汇总及科普

并整理了20个可免费下载的平行语料资源库

他们说,要为保护全球濒危语言贡献一份力量


为什么要做这个项目?

研究显示,全球有近 2500 种语言处于濒危状态,在联合国绘制的《全球濒危语言分布图》中,代表着危机的红色标记几乎布满世界各地,濒危语言资源的保护工作迫在眉睫。

 图片源于网络 

▲ 图说:图中我们可以看到,排名前三位的国家分别是印度、美国和印度尼西亚,这些国家各有一百多种语言面临消亡的危险。

 

令人欣喜的是,随着 AI 技术的迅猛发展,机器翻译技术的出现让拯救濒危语言成为可能。

目前,有很多研究机构和非盈利组织都在做濒危语言的挽救工作,他们通过收集整理和汇总濒危语言的信息,让濒危语言以数字化的形式保存下来。很多机器翻译研究团队也展开了面向低资源语言的机器翻译技术研究,比如,有很多机构通过单语、双语等各种形式的平行数据,构建低资源语言机器翻译引擎,这也是对语言保护的一种特殊方式。

 图片源于网络 

▲ 图说:以我国为例,我国的濒危语言众多,但在国家大力保护下,许多仍处于留存状态(绿色部分),但也有大量语言濒临灭绝(红色部分),亟待拯救。

 

但是,即使是用上 AI 的力量,也只有 200-300 种语言能够呈现出来,还有很大一部分语言没有被数字化。因此,对濒危语言的留存与保护,是我们必须理性面对而不可回避的现实问题。


是什么样的资源?

目前,这个项目由小牛翻译团队发起,其中包含 353 种语言的 ISO 639 代码、语系、语族、书写字母、中文名称等信息,类似于一部“语言词典”,涵盖了世界上大部分的多数民族语言以及大量的少数民族语言。为方便使用者便捷地找到想要了解的语言信息,项目贴心地列出了语言的中英文名称。

值得一提的是,“语言词典”中包括还斯瓦西里语、乌尔都语等低资源语言,这不仅是对语言的科普,也是对保护濒危语言做出的一份贡献。

 

还有一个彩蛋

 

此外,他们还将来自 CCMT、 WMT、 NIST、 IWSLT、WAT 等机器翻译会议或机构的语言资源以及自行整理的 20 个多语/双语平行语料库(包括语料库所支持的语言、领域、数据量)的语言资源进行汇总,并从语种、语料库规模以及数据所属领域进行总结,并提供了资源的获取网址,便于研究者获取所需语种数据。

在这些语言中,包括一些尚未充分研究的语言,如达罗毗荼语系(Dravidian languages)泰米尔语(Tamil)(印度南部、斯里兰卡和新加坡语言)、泰卢固语(Telugu)和马拉雅拉姆语(Malayalam)(印度南部语言),以及尼日尔-刚果语系(Niger–Congo languages)斯瓦希里语(Swahili)和约鲁巴语(Yoruba)(非洲语言),可供人们开展语言研究、训练翻译模型、开发多语机器翻译系统之用。

 

如果你有兴趣,请收好资源传送门,觉得有用记得star:

https://github.com/NiuTrans/LanguageCodes

 

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

???? 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

???? 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

????

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值