目录
参考来源:Domain-Specific Language Model Pretraining for Biomedical Natural Language Processing
3.1 命名实体识别。 BC5-Chemical & BC5-Disease.
论文贡献:Domain-Specific Language Model Pretraining for Biomedical Natural Language Processing
参考来源:Domain-Specific Language Model Pretraining for Biomedical Natural Language Processing
3.1 命名实体识别。 BC5-Chemical & BC5-Disease.
- BioCreative V化学-疾病关系语料库[35]是为评估药物-疾病相互作用的关系提取而创建的,但它经常被用作检测化学(药物)和疾病实体的NER语料库。该数据集由1,500份PubMed摘要组成,分为训练、开发和测试三个均匀的部分。我们使用由Crichton等人[14]生成的该数据集的预处理版本,放弃关系标签,分别训练化学(BC5-Chemical)和疾病(BC5-Disease)的NER模型。
- NCBI-Disease。自然生物技术信息中心疾病语料库[18]包含793个PubMed摘要,其中有6,892个注释的疾病提及,与790个不同的疾病实体相联系。我们使用由Crichton等人[14]产生的预处理的训练、发展和测试分词集。
- BC2GM。Biocreative II Gene Mention语料库[53]由PubMed摘要中的句子组成,其中有人工标记的基因和替代基因实体。按照以前的工作,我们把重点放在基因实体的注释上。 在其原始形式中,BC2GM包含15,000个训练句和5,000个测试句。我们使用Crichton等人[14]生成的数据集的预处理版本,从训练数据中划出2500个句子用于开发。
- JNLPBA。生物医学及其应用中的自然语言处理联合研讨会的共享任务[27]是一个关于PubMed摘要的NER语料库。实体类型是为分子生物学应用选择的:蛋白质、DNA、RNA、细胞系和细胞类型。一些实体类型的区分意义不大。例如,一个基因通常指的是DNA和基因产物,如RNA和蛋白质。按照之前对这个数据集的评估工作[34],我们忽略了类型的区分,而专注于检测实体的提及。我们使用与Crichton等人[14]相同的训练、开发和测试分片。
2.3.2 基于证据的医疗信息提取(PICO)。
EBM的PICO。循证医学语料库[44]包含了PubMed中关于临床试验的摘要,每个摘要都用PICO中的P、I和O来注释:参与者(如糖尿病患者)、干预(如胰岛素)、比较者(如安慰剂)和结果(如血糖水平)Participants (e.g., diabetic patients), Intervention (e.g.,insulin), Comparator (e.g., placebo), and Outcome (e.g., blood glucose levels).。比较者(C)标签被省略,因为它们是临床试验的标准:安慰剂用于被动控制,标准护理用于主动控制。训练、发展和测试中分别有4300、500和200篇摘要。训练和发展集是由亚马逊机械突击队员标注的,而测试集是由受过医学培训的Upwork贡献者标注的。EBM PICO为每个PIO元素提供了单词级别的标签。对于摘要中的每个PIO元素,我们在词的层面上统计F1得分,然后将最终得分计算为数据集中PIO元素的平均值。偶尔,两个PICO元素可能会相互重叠(例如,一个参与者跨度可能包含一个干预跨度)。在EBM PICO中,大约有3%的PIO词处于重叠状态。请注意,与SciBERT一起发布的数据集似乎从较大的跨度(例如,前面提到的参与者跨度)中删除了重叠的词。我们反而使用原始数据集[44]和他们的脚本进行预处理和评估
2.3.3 关系提取。
- ChemProt. 化学蛋白质相互作用语料库[31]由PubMed的摘要组成,注释了化学和蛋白质实体之间的化学-蛋白质相互作用。有23个相互作用被组织成一个层次,其中有10个高级别的相互作用(包括NONE)。ChemProt中的大多数关系实例都在单个句子中。按照以前的工作[8, 34],我们只考虑句子级的实例。我们遵循ChemProt作者的建议,重点对五种高层次的相互作用进行分类--UPREGULATOR(CPR:3),DOWNREGULATOR(CPR:4),AGONIST(CPR:5),ANTAGONIST(CPR:6),SUBSTRATE(CPR:9),以及其他一切(假)。ChemProt 注释并不是对所有化学-蛋白质对的详尽说明。按照以前的工作[34, 45],我们通过为所有出现在训练或发展句子中的化学-蛋白质对分配一个假标签来扩展训练和发展集,但我们在ChemProt语料库中没有明确的标签。请注意,之前的工作对测试数据的标签扩展略有不同。为了便于进行头对头的比较,我们将提供在BLURB中从原始数据集复制测试集的说明。
- DDI。药物相互作用语料库[21]的创建是为了促进药品信息提取的研究,特别是对药物警戒的研究。它包含了对PubMed摘要中药物-药物相互作用的句子级注释。请注意,之前的一些工作[45, 61]丢弃了90个训练文件,作者认为这些文件不利于学习药物间的相互作用。我们使用原始数据集,并产生了我们的训练/开发/测试的624/90/191个文件。
- GAD。遗传学协会数据库语料库[11]是利用遗传学协会档案馆半自动创建的。3具体来说,档案馆包含一个基因-疾病关联的列表,以及PubMed摘要中报告该关联研究的相应句子。Bravo等人[11]使用一个生物医学的NER工具来识别基因和疾病的提及,并从PubMed摘要中的注释句子中创建正面例子。
2.3.4 句子相似性。
BIOSSES. 生物医学领域的句子相似性估计系统[54]包含100对PubMed句子,每个句子由5个专家级注释者进行注释,估计的相似性分数在0(没有关系)到4(意义相等)之间。这是一项回归任务,以平均分作为最终注释。我们使用与Peng等人[45]的工作相同的训练/dev/测试分割,并使用Pearson相关性进行评估。
2.3.5 文档分类。
HoC。癌症标志语料库是由关于癌症标志的开创性工作所激发的[20]。它包含了对PubMed摘要的注释,带有二进制标签,每个标签都标志着对一个特定的癌症标志的讨论。作者使用了37个细粒度的标志,这些标志被归类为10个顶级标志。我们的重点是预测顶级标签。该数据集发布时有1,499份PubMed摘要[6],后来扩展到1,852份摘要[5]。请注意,Peng等人[45]放弃了一个由272个摘要组成的控制子集,这些摘要没有讨论任何癌症标志(即所有二元标签都是假的)。我们采用原始数据集,并报告10个癌症标志的微观F1。虽然原始数据集提供了句子级别的注释,但我们遵循通常的做法,在抽象级别上进行评估[19, 60]。我们创建了训练/开发/测试分割,因为以前没有这些数据。
4 2.3.6 问题回答(QA)。
- PubMedQA。PubMedQA数据集[25]包含一组研究问题,每个问题都有来自PubMed摘要的参考文本,以及文本是否包含研究问题的答案的注释标签(是/可能/否)。我们使用原始的train/dev/test分割,分别有450、50和500个问题。
- BioASQ。BioASQ语料库[42]包含由生物医学专家注释的多个问题回答任务,包括是/否、事实类、列表和摘要问题。与我们比较神经语言模型的目标有关,我们专注于是/否问题(任务7b),并将其他任务的纳入留给未来的工作。每个问题都与包含PubMed摘要中的多个句子和是/否答案的参考文本相匹配。我们使用官方的训练/开发/测试部分,即670/75/140个问题。
现有NLP任务和解决范式
生物领域的Pretrain
论文贡献:Domain-Specific Language Model Pretraining for Biomedical Natural Language Processing
为了促进这项研究,我们创建了BLURB,这是一个全面的生物医学NLP基准,具有多样化的任务集,如NER、关系提取、文档分类和问题ACM Transactions on Computing for Healthcare, Vol.3, No. 出版日期。