智源研究院开源阿拉伯语通用大模型ALM,发布最大阿拉伯语数据集ArabicText

智源研究院开源阿拉伯语通用大模型ALM,发布最大阿拉伯语数据集ArabicText

资讯

白羽中 2022-12-06 21:52 分享

以下文章来源于mp.weixin.qq.com

近日,北京智源人工智能研究院(以下简称“智源”)联合多家阿拉伯科研机构,开源兼具自然语言理解和生成能力的通用阿拉伯语预训练模型ALM 1.0,并发布开源世界目前数据量最大的阿拉伯语预训练文本数据集ArabicText,共同推动阿拉伯语大模型AI生态的建设。

阿拉伯语作为世界第五大语言,是超过20个国家和地区的官方语言,世界上有超过4亿人使用。目前现有的阿拉伯语预训练语言模型大多侧重文本理解或文本生成单一方向,并且现有阿拉伯语的预训练数据也存在着数据量少、质量参差不齐等问题。

今年3月开始,智源认知模型与数据研究团队就开始与阿拉伯科学技术与海运学院、埃及亚历山大图书馆、阿联酋起源人工智能研究院等阿语国家和地区的优势机构开展合作,致力于阿拉伯语大模型的训练和数据集构建。阿拉伯科学技术与海运学院校长Ismail Abdel Ghaffar 教授在2022智源大会上表示:“共建阿拉伯语大模型和数据集将会对阿拉伯世界的科技产生重大影响。”
 

通用性更强的阿语模型,兼备自然语言生成和理解能力

在模型训练上,阿拉伯语大模型ALM 1.0基于自然语言理解、条件和无条件生成的广泛任务上都表现优异的智源悟道GLM架构进行训练,兼具自然语言生成和理解能力。ALM 1.0将广泛支持阿拉伯语场景下的内容摘要、文本续写和生成、常识问答等一系列下游应用,助力阿拉伯语世界的人工智能科研工作和技术落地,推动阿拉伯语大模型AI生态圈的建设。

图片

(GLM架构图)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

强化学习曾小健

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值