医学AI又一突破，微软开源生物医学NLP基准：BLURB

最新推荐文章于 2022-08-17 19:14:26 发布

iFlyAI

最新推荐文章于 2022-08-17 19:14:26 发布

阅读量459

点赞数

分类专栏：人工智能竞赛机器学习 NLP 文章标签：机器学习人工智能自然语言处理 ai

本文链接：https://blog.csdn.net/iFlyAI/article/details/107935854

版权

人工智能竞赛同时被 3 个专栏收录

110 篇文章 14 订阅

订阅专栏

机器学习

35 篇文章 0 订阅

订阅专栏

NLP

7 篇文章 0 订阅

订阅专栏

摘要：BLURB 包括 13 个公开可用的数据集，涉及 6 个不同的任务。为了避免偏重多可用数据集的任务，如命名实体识别（NER），BLURB 的报告和排名，将所有任务的宏观平均数作为主要得分。BLURB 排行榜是不分模型的。任何能够 ...

人工智能学习离不开实践的验证，推荐大家可以多在FlyAI-AI竞赛服务平台多参加训练和竞赛，以此来提升自己的能力。FlyAI是为AI开发者提供数据竞赛并支持GPU离线训练的一站式服务平台。每周免费提供项目开源算法样例，支持算法能力变现以及快速的迭代算法模型。

微软的研究团队近日在 arxiv.org 发布了论文：《Domain-Specific Language Model Pretraining for Biomedical Natural Language Processing 生物医学特定领域的语言模型预训练》，介绍并开源了一个能够用于生物医学领域 NLP 基准，并命名为 BLURB。

论文地址：https://arxiv.org/pdf/2007.15779.pdf

Biomedical Language Understanding and Reasoning Benchmark 的首字母缩写，即为 BLURB 的命名规则，翻译为生物医学语言理解和推理基准。

医学 NLP 基准，BLURB 身负重任

BLURB 包括 13 个公开可用的数据集，涉及 6 个不同的任务。

为了避免偏重多可用数据集的任务，如命名实体识别（NER），BLURB 的报告和排名，将所有任务的宏观平均数作为主要得分。

图为 BLURB 中使用的数据集、以及团队列出的训练、开发和测试中的实例数量

BLURB 排行榜是不分模型的。任何能够使用相同的训练和开发数据产生测试预测的系统都可以参与。

团队表示 BLURB 的主要目标是：降低生物医学NLP的准入门槛，帮助加快该领域的进展，能对社会和人类产生积极影响。

生物医学 NLP ：必须使用域内文本

研究已经表明生物医学 NLP 可以在医学领域提高数据集的准确性。但是在跨学科的数据集中，准确性又会大大降低。而由于不同医学领域之间（Domain）跨度较大，所以对于 NLP 的预训练会花费非常多的时间。

微软研究人员为了提升 NLP 的训练速度，通过对预训练和特定任务的微调，对生物医学 NLP 应用的影响进行了建模比较，从而评估最适合的预训练方法。

团队对域内文本与混合域外文本进行的对照

首先，团队创建了一个名为「生物医学语言理解与推理基准」（BLURB）的基准，该基准侧重于 PubMed 提供的出版物，涵盖了相似问题解答和文本提取之类的任务。

实验证明，这种对比的方法能够将 NLP 训练的速度提升数倍。

同时，为了鼓励对生物医学 NLP 的研究，研究人员创建了以 BLURB 基准为基准的排行榜，还开源了预训练模型。以求快速生物医学 NLP 能够早日投入使用。

访问 https://microsoft.github.io/BLURB/ ，可访问 BLURB 项目官网。

更多关于人工智能的文章，敬请访问：FlyAI-AI竞赛服务平台学习圈学习；同时FlyAI欢迎广大算法工程师在平台发文，获得更多原创奖励。此外，FlyAI竞赛平台提供大量数据型赛题供学习党和竞赛党参与，免费GPU试用，更多大赛经验分享；如有任何疑问可添加下方微信服务号（FlyAI小助手）进行咨询。

更多福利可添加“FlyAI小助手”获取~

iFlyAI

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
医学AI又一突破，微软开源生物医学NLP基准：BLURB

摘要：BLURB 包括 13 个公开可用的数据集，涉及 6 个不同的任务。为了避免偏重多可用数据集的任务，如命名实体识别（NER），BLURB 的报告和排名，将所有任务的宏观平均数作为主要得分。BLURB 排行榜是不分模型的。任何能够 ...人工智能学习离不开实践的验证，推荐大家可以多在FlyAI-AI竞赛服务平台多参加训练和竞赛，以此来提升自己的能力。FlyAI是为AI开发者提供数据竞赛并支持GPU离线训练的一站式服务平台。每周免费提供项目开源算法样例，支持算法能力变现以及快速的迭代算法模型。..
复制链接

扫一扫