BioBERT:用于生物医学文本挖掘的预训练生物医学语言表示模型

最新推荐文章于 2025-03-21 19:22:55 发布

行要更名

最新推荐文章于 2025-03-21 19:22:55 发布

阅读量1w

点赞数

分类专栏：文本挖掘文章标签：文本挖掘

本文链接：https://blog.csdn.net/weixin_42891125/article/details/103255908

版权

文章介绍了一种预训练的生物医学语言表示模型BioBERT，它在生物医学文本挖掘任务如NER、RE和QA上表现出色，优于普通BERT和先前的先进模型。BioBERT在大规模生物医学语料库上训练，提高了处理生物医疗词汇的能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原文题目： BioBERT: a pre-trained biomedical language representation model for biomedical text mining
原文网址： https://academic.oup.com/bioinformatics/advance-article-abstract/doi/10.1093/bioinformatics/btz682/5566506
背景
因为生物医疗数据的特殊性，普通的文本挖掘方法不能很好的处理这些医疗词汇，所以作者研究了最近引进的预训练语言模型BERT如何适用于生物医学语料库。作者通过预先在大规模生物医学语料库上训练的领域特定语言表示模型用在BERT对于生物医学文本的挖掘。BioBERT的任务架构几乎相同，在生物医学语料库上进行预培训时，它在各种生物医学文本挖掘任务上的表现在很大程度上超过了BERT和之前的先进模型。
BERT的方法见：Bert: pre-training of deep bidirectional transformers for language understanding.
BioBERT 模型框架(来自论文原文）：