全球最大 COVID-19 研究数据集正式开放,加强科技抗疫

近日,全球多家研究机构以及科技企业为了更好的应对疫情,联合发布了一个 COVID-19 开放研究数据集(简称为 CORD-19 ),该数据集中包含针对文本进行优化的文本处理工具包 SciSpacy、在科学文本上进行预训练的 BERT 模型 SciBERT、开放研究语料库和 API 等,并汇集了有关 SARS-CoV-2 病毒内容在内的近 29,000 篇文章。此次公开的数据集是机器可读的,因此可以轻松地进行解析,以用于机器学习目的。

该项目由艾伦 AI 研究所、Chan Zuckerberg Initiative(CZI)、乔治敦大学安全与新兴技术中心(CSET)、微软以及美国国立卫生研究院国家医学图书馆(NLM)等机构组成。在新闻发布会上,美国首席技术官 Michael Kratsios 称新数据集为“迄今为止最广泛的机器可读冠状病毒文献集”。

多年来,科学家一直在研究和发表有关各种冠状病毒株的发现,包括 SARS、MERS 和最新的 COVID-19 等其他变体。微软首席科学官埃里克·霍维茨(Eric Horvitz)说,利用人工智能工具寻找数千篇此类已发表文章的共性和差异,将有助于科学家发现他们可能错过的事物。

Kaggle 的联合创始人兼首席执行官 Anthony Goldbloom 表示:“人们很难手动浏览 2 万多篇文章并综合他们的发现。” “最近的技术进步在这里可能会有所帮助。我们将这些文章的机器可读版本显示在我们超过 400 万数据科学家的社区中。我们希望,人工智能可以用来帮助找到有关 COVID-19 的一系列关键问题的答案。”

Chan Zuckerberg Initiative 科学部负责人 Cori Bargmann 表示:“在科学界和医学界之间共享重要信息,对于提高我们应对冠状病毒大流行的能力至关重要,新的 COVID-19 开放研究数据集将帮助全球研究人员更快地访问重要信息。”

据悉,科学期刊和文学的出版商已经同意将其完整的文章提供给研究人员,以便机器学习算法可以从中寻找关键的见解。他们说,随着世界各地科学家继续发表新的研究成果,期刊出版商已经同意在印刷版本之前以电子形式提供这些文章。

COVID-19 开放研究数据集地址:https://pages.semanticscholar…

作者:徐九

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

财见

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值