BioBERT: a pre-trained biomedical language representation model for biomedical text mining

BioBERT: a pre-trained biomedical language representation model for biomedical text mining

期刊:Bioinformatics      影响因子:5.6

中文翻译:BioBERT:用于生物挖掘的预训练生物医学语言表示的模型。

1  总结

我阅读之后的总结,这篇文章总体上突出了“有钱”两个字。项目中使用了8块英伟达的V100显卡(5W一块)。不过,这篇论文也有很多的借鉴之处,如训练的方法、以及在NER(命名实体识别)、RE(关系抽取)、QA(回答问题)。而且论文将训练出来的参数全部公开在了github上。而且论文只有7页所以读的比较快。

2  介绍

由于自然语言和医学语言中有很大差距。所以要多自然语言的模型进行改进。首先对BioBERT初始化BERT模型在一般领域预料库得到的权重。然后在放入生物医学的语料库进行训练。为了证明方法对于生物医学文本挖掘的有效性,对BioBEAT不同任务中进行微调和评估。(因为是BioBERT和BERT都是使用的相同的参数,可以知道两个模型的结构没有变。只不过BioBERT在生物医学的语料库上进行了预训练)。

3  预训练的过程

上面是使用不同组合的预料库进行预训练。其中会发现,每一个都是用到了WIKI+Books的语料库,因此每一个都是直接使用BERT预训练好的参数上,进行再训练。因为在生物医学的语料库中会出现很长而且很少使的语料,处理方式是WordPeice,将单词分割出来(如:Immunoglobulin => I ##mm ##uno ##g ##lo ##bul ##in)。这样就可以表示了。论文中提到这样表示的原因是可以直接是有BERT训练好的参数,我认为还有一个小的原因的,在命名实体识别的时候,要对没有见过的单词预测出是否是一个实体。在BERT没用见过的单词,会使用[CLS]代替,而在BioBERT中不可以。

 

3  微调BioBERT

分别进行命名实体识别、关系抽取、回答问题。这里主要讲的是数据集的选取。以及对以前的数据集要进行如何预处理。同时微调的方式:就是经过预训练好的BioBERT模型继续训练。用于专门的任务。

报告中,分别有了用上面四个模型进行不同任务的对比和当下最先进模型的对比。总体上来说取得了不错的效果。

4  目前BioBERT的使用

BioBERT已经用到了多个方面,如临床的NER(命名实体识别)、基因的RE(关系抽取)、临床的RE(关系抽取)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值