BioBERT:用于生物医学文本挖掘的预训练生物医学语言表示模型

原文题目: BioBERT: a pre-trained biomedical language representation model for biomedical text mining
原文网址: https://academic.oup.com/bioinformatics/advance-article-abstract/doi/10.1093/bioinformatics/btz682/5566506
背景
因为生物医疗数据的特殊性,普通的文本挖掘方法不能很好的处理这些医疗词汇,所以作者研究了最近引进的预训练语言模型BERT如何适用于生物医学语料库。作者通过预先在大规模生物医学语料库上训练的领域特定语言表示模型用在BERT对于生物医学文本的挖掘。BioBERT的任务架构几乎相同,在生物医学语料库上进行预培训时,它在各种生物医学文本挖掘任务上的表现在很大程度上超过了BERT和之前的先进模型。
BERT的方法见Bert: pre-training of deep bidirectional transformers for language understanding.
BioBERT 模型框架(来自论文原文):

  • 0
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
BioBERT用于生物医学文本挖掘预训练生物医学语言表示模型。随着生物医学文献数量的快速增长,生物医学文本挖掘变得越来越重要。随着自然语言处理(NLP)的进步,从生物医学文献中提取有价值的信息已在研究人员中受到欢迎,深度学习促进了有效的生物医学文本挖掘模型的发展。但是,由于单词分布从普通领域的语料库转移到生物医学的语料库,直接将NLP的进步应用到生物医学文本挖掘中常常会产生不令人满意的结果。在本文中,我们研究了最近引入的预训练语言模型BERT如何适用于生物医学语料库。我们介绍了BioBERT用于生物医学文本挖掘的变压器的双向编码器表示),这是在大型生物医学语料库上预先训练的领域特定语言表示模型。通过在任务上几乎相同的体系结构,在经过生物医学语料库的预训练之后,BioBERT在许多生物医学文本挖掘任务中都大大优于BERT和以前的最新模型。尽管BERT获得的性能可与以前的最新模型相媲美,但在以下三个代表性生物医学文本挖掘任务上,BioBERT的性能明显优于它们:生物医学命名实体识别(F1分数提高0.62%),生物医学关系提取(2.80%) F1分数提高)和生物医学问答(MRR提高12.24%)。我们的分析结果表明,对生物医学语料库进行BERT的预培训有助于其理解复杂的生物医学文献。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值