BioBERT: a pre-trained biomedical language representation model for biomedical text mining

BioBERT: a pre-trained biomedical language representation model for biomedical text mining

期刊:Bioinformatics      影响因子:5.6

中文翻译:BioBERT:用于生物挖掘的预训练生物医学语言表示的模型。

1  总结

我阅读之后的总结,这篇文章总体上突出了“有钱”两个字。项目中使用了8块英伟达的V100显卡(5W一块)。不过,这篇论文也有很多的借鉴之处,如训练的方法、以及在NER(命名实体识别)、RE(关系抽取)、QA(回答问题)。而且论文将训练出来的参数全部公开在了github上。而且论文只有7页所以读的比较快。

2  介绍

由于自然语言和医学语言中有很大差距。所以要多自然语言的模型进行改进。首先对BioBERT初始化BERT模型在一般领域预料库得到的权重。然后在放入生物医学的语料库进行训练。为了证明方法对于生物医学文本挖掘的有效性,对BioBEAT不同任务中进行微调和评估。(因为是BioBERT和BERT都是使用的相同的参数,可以知道两个模型的结构没有变。只不过BioBERT在生物医学的语料库上进行了预训练)。

3  预训练的过程

上面是使用不同组合的预料库进行预训练。其中会发现,每一个都是用到了WIKI+Books的语料库,因此每一个都是直接使用BERT预训练好的参数上,进行再训练。因为在生物医学的语料库中会出现很长而且很少使的语料,处理方式是WordPeice,将单词分割出来(如:Immunoglobulin => I ##mm ##uno ##g ##lo ##bul ##in)。这样就可以表示了。论文中提到这样表示的原因是可以直接是有BERT训练好的参数,我认为还有一个小的原因的,在命名实体识别的时候,要对没有见过的单词预测出是否是一个实体。在BERT没用见过的单词,会使用[CLS]代替,而在BioBERT中不可以。

 

3  微调BioBERT

分别进行命名实体识别、关系抽取、回答问题。这里主要讲的是数据集的选取。以及对以前的数据集要进行如何预处理。同时微调的方式:就是经过预训练好的BioBERT模型继续训练。用于专门的任务。

报告中,分别有了用上面四个模型进行不同任务的对比和当下最先进模型的对比。总体上来说取得了不错的效果。

4  目前BioBERT的使用

BioBERT已经用到了多个方面,如临床的NER(命名实体识别)、基因的RE(关系抽取)、临床的RE(关系抽取)。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
BioBERT:用于生物医学文本挖掘的预训练生物医学语言表示模型。随着生物医学文献数量的快速增长,生物医学文本挖掘变得越来越重要。随着自然语言处理(NLP)的进步,从生物医学文献中提取有价值的信息已在研究人员中受到欢迎,深度学习促进了有效的生物医学文本挖掘模型的发展。但是,由于单词分布从普通领域的语料库转移到生物医学的语料库,直接将NLP的进步应用到生物医学的文本挖掘中常常会产生不令人满意的结果。在本文中,我们研究了最近引入的预训练语言模型BERT如何适用于生物医学语料库。我们介绍了BioBERT(用于生物医学文本挖掘的变压器的双向编码器表示),这是在大型生物医学语料库上预先训练的领域特定语言表示模型。通过在任务上几乎相同的体系结构,在经过生物医学语料库的预训练之后,BioBERT在许多生物医学文本挖掘任务中都大大优于BERT和以前的最新模型。尽管BERT获得的性能可与以前的最新模型相媲美,但在以下三个代表性生物医学文本挖掘任务上,BioBERT的性能明显优于它们:生物医学命名实体识别(F1分数提高0.62%),生物医学关系提取(2.80%) F1分数提高)和生物医学问答(MRR提高12.24%)。我们的分析结果表明,对生物医学语料库进行BERT的预培训有助于其理解复杂的生物医学文献。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值