运行BioBERT-Pytorch模型保姆级详细步骤

运行BioBERT-Pytorch模型保姆级详细步骤

简介

biobert-pytorch模型可在linux系统下运行(github上的开源代码里的readme里给出的命令是linux系统下的命令),也可在windows系统下运行。代码中下载数据集的文件 dowmload.sh preprocess.sh
无法直接在windows系统下运行。因此有两种解决方法。
一:整个代码都在linux系统下运行,需要安装虚拟机,如果习惯用Linux系统的,运行起来不会太困难;也可以在linux系统下只运行.sh文件,把数据集拿过来,然后到windows下面运行。(github上biobert-pytorch模型中从谷歌网站下载数据集有点问题,不能直接下载,需要数据集的可以从bert模型里下载或者私信我哟)
二:整个都在windows系统上运行,需要安装Git,用来运行.sh文件。安装完之后修改一下配置就可以运行.sh文件了。具体链接奉上。git下载:

https://git-scm.com/download/win

git配置环境:

https://blog.csdn.net/qq_44696773/article/details/125615631

运行环境

python 3.8
transformers:4.24.0
pytorch 1.12.1
linux服务器

运行

在运行之前需要先运行preprocess.sh文件对数据进行预处理。
配置参数:下图是github上给出的参数配置,是Linux里的命令这是github上给出的参数,是linux里的命令
这是我自己运行时设置的参数(windows系统下):

--data_dir
./datasets/NCBI-disease
--labels
./datasets/NCBI-disease/labels.txt
--model_name_or_path
dmis-lab/biobert-base-cased-v1.1
--output_dir
output/NCBI-disease
--max_seq_length
128
--num_train_epochs
3
--per_device_train_batch_size
4
--save_steps
1000
--seed
1
--do_train
true
--do_eval
true
--do_predict
true
--overwrite_output_dir

一定要注意路径问题,根据自己的项目修改路径!!!
配好参数之后运行run_ner.py文件,当出现下图所示时就成功一大半了,接下来就是漫长的等待过程,下载预训练模型和训练模型,我在实验室电脑上跑的,没有GPU,太慢了,就转战到服务器上运行了,速度大大提升了。在这里插入图片描述

出现的问题

ValueError:num_samples should be a positive integar value…
解决方法:数据集的问题,可能下载的不全
AttributeError: ‘Trainer’ object has no attribute ‘is_world_master’
解决方法:将代码中的所有 ‘is_world_master’ 改为‘is_world_process_zero’ 大概有3、4处记得修改完

结果

训练完模型见下图:
在这里插入图片描述
在这里插入图片描述
调代码的过程真的是磨练人脾气的过程,坚持不住的时候再坚持一下下,就会有意想不到的结果。祝你好运!

  • 3
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
BioBERT:用于生物医学文本挖掘的预训练生物医学语言表示模型。随着生物医学文献数量的快速增长,生物医学文本挖掘变得越来越重要。随着自然语言处理(NLP)的进步,从生物医学文献中提取有价值的信息已在研究人员中受到欢迎,深度学习促进了有效的生物医学文本挖掘模型的发展。但是,由于单词分布从普通领域的语料库转移到生物医学的语料库,直接将NLP的进步应用到生物医学的文本挖掘中常常会产生不令人满意的结果。在本文中,我们研究了最近引入的预训练语言模型BERT如何适用于生物医学语料库。我们介绍了BioBERT(用于生物医学文本挖掘的变压器的双向编码器表示),这是在大型生物医学语料库上预先训练的领域特定语言表示模型。通过在任务上几乎相同的体系结构,在经过生物医学语料库的预训练之后,BioBERT在许多生物医学文本挖掘任务中都大大优于BERT和以前的最新模型。尽管BERT获得的性能可与以前的最新模型相媲美,但在以下三个代表性生物医学文本挖掘任务上,BioBERT的性能明显优于它们:生物医学命名实体识别(F1分数提高0.62%),生物医学关系提取(2.80%) F1分数提高)和生物医学问答(MRR提高12.24%)。我们的分析结果表明,对生物医学语料库进行BERT的预培训有助于其理解复杂的生物医学文献。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值