生物领域简单调研

最新推荐文章于 2024-09-25 16:38:16 发布

YJII

最新推荐文章于 2024-09-25 16:38:16 发布

阅读量683

点赞数

分类专栏：论文记录文章标签：自然语言处理人工智能

本文链接：https://blog.csdn.net/Hekena/article/details/126392582

版权

论文记录专栏收录该内容

147 篇文章

订阅专栏

参考来源：Domain-Specific Language Model Pretraining for Biomedical Natural Language Processing

3.1 命名实体识别。 BC5-Chemical & BC5-Disease.

2.3.2 基于证据的医疗信息提取（PICO）。

论文贡献：Domain-Specific Language Model Pretraining for Biomedical Natural Language Processing

参考来源：Domain-Specific Language Model Pretraining for Biomedical Natural Language Processing

3.1 命名实体识别。 BC5-Chemical & BC5-Disease.

BioCreative V化学-疾病关系语料库[35]是为评估药物-疾病相互作用的关系提取而创建的，但它经常被用作检测化学（药物）和疾病实体的NER语料库。该数据集由1,500份PubMed摘要组成，分为训练、开发和测试三个均匀的部分。我们使用由Crichton等人[14]生成的该数据集的预处理版本，放弃关系标签，分别训练化学（BC5-Chemical）和疾病（BC5-Disease）的NER模型。
NCBI-Disease。自然生物技术信息中心疾病语料库[18]包含793个PubMed摘要，其中有6,892个注释的疾病提及，与790个不同的疾病实体相联系。我们使用由Crichton等人[14]产生的预处理的训练、发展和测试分词集。
BC2GM。Biocreative II Gene Mention语料库[53]由PubMed摘要中的句子组成，其中有人工标记的基因和替代基因实体。按照以前的工作，我们把重点放在基因实体的注释上。在其原始形式中，BC2GM包含15,000个训练句和5,000个测试句。我们使用Crichton等人[14]生成的数据集的预处理版本，从训练数据中划出2500个句子用于开发。
JNLPBA。生物医学及其应用中的自然语言处理联合研讨会的共享任务[27]是一个关于PubMed摘要的NER语料库。实体类型是为分子生物学应用选择的：蛋白质、DNA、RNA、细胞系和细胞类型。一些实体类型的区分意义不大。例如，一个基因通常指的是DNA和基因产物，如RNA和蛋白质。按照之前对这个数据集的评估工作[34]，我们忽略了类型的区分，而专注于检测实体的提及。我们使用与Crichton等人[14]相同的训练、开发和测试分片。

2.3.2 基于证据的医疗信息提取（PICO）。

EBM的PICO。循证医学语料库[44]包含了PubMed中关于临床试验的摘要，每个摘要都用PICO中的P、I和O来注释：参与者（如糖尿病患者）、干预（如胰岛素）、比较者（如安慰剂）和结果（如血糖水平）Participants (e.g., diabetic patients), Intervention (e.g.,insulin), Comparator (e.g., placebo), and Outcome (e.g., blood glucose levels).。比较者（C）标签被省略，因为它们是临床试验的标准：安慰剂用于被动控制，标准护理用于主动控制。训练、发展和测试中分别有4300、500和200篇摘要。训练和发展集是由亚马逊机械突击队员标注的，而测试集是由受过医学培训的Upwork贡献者标注的。EBM PICO为每个PIO元素提供了单词级别的标签。对于摘要中的每个PIO元素，我们在词的层面上统计F1得分，然后将最终得分计算为数据集中PIO元素的平均值。偶尔，两个PICO元素可能会相互重叠（例如，一个参与者跨度可能包含一个干预跨度）。在EBM PICO中，大约有3%的PIO词处于重叠状态。请注意，与SciBERT一起发布的数据集似乎从较大的跨度（例如，前面提到的参与者跨度）中删除了重叠的词。我们反而使用原始数据集[44]和他们的脚本进行预处理和评估

2.3.3 关系提取。

ChemProt. 化学蛋白质相互作用语料库[31]由PubMed的摘要组成，注释了化学和蛋白质实体之间的化学-蛋白质相互作用。有23个相互作用被组织成一个层次，其中有10个高级别的相互作用（包括NONE）。ChemProt中的大多数关系实例都在单个句子中。按照以前的工作[8, 34]，我们只考虑句子级的实例。我们遵循ChemProt作者的建议，重点对五种高层次的相互作用进行分类--UPREGULATOR（CPR：3），DOWNREGULATOR（CPR：4），AGONIST（CPR：5），ANTAGONIST（CPR：6），SUBSTRATE（CPR：9），以及其他一切（假）。ChemProt 注释并不是对所有化学-蛋白质对的详尽说明。按照以前的工作[34, 45]，我们通过为所有出现在训练或发展句子中的化学-蛋白质对分配一个假标签来扩展训练和发展集，但我们在ChemProt语料库中没有明确的标签。请注意，之前的工作对测试数据的标签扩展略有不同。为了便于进行头对头的比较，我们将提供在BLURB中从原始数据集复制测试集的说明。
DDI。药物相互作用语料库[21]的创建是为了促进药品信息提取的研究，特别是对药物警戒的研究。它包含了对PubMed摘要中药物-药物相互作用的句子级注释。请注意，之前的一些工作[45, 61]丢弃了90个训练文件，作者认为这些文件不利于学习药物间的相互作用。我们使用原始数据集，并产生了我们的训练/开发/测试的624/90/191个文件。
GAD。遗传学协会数据库语料库[11]是利用遗传学协会档案馆半自动创建的。3具体来说，档案馆包含一个基因-疾病关联的列表，以及PubMed摘要中报告该关联研究的相应句子。Bravo等人[11]使用一个生物医学的NER工具来识别基因和疾病的提及，并从PubMed摘要中的注释句子中创建正面例子。

2.3.4 句子相似性。

BIOSSES. 生物医学领域的句子相似性估计系统[54]包含100对PubMed句子，每个句子由5个专家级注释者进行注释，估计的相似性分数在0（没有关系）到4（意义相等）之间。这是一项回归任务，以平均分作为最终注释。我们使用与Peng等人[45]的工作相同的训练/dev/测试分割，并使用Pearson相关性进行评估。

2.3.5 文档分类。

HoC。癌症标志语料库是由关于癌症标志的开创性工作所激发的[20]。它包含了对PubMed摘要的注释，带有二进制标签，每个标签都标志着对一个特定的癌症标志的讨论。作者使用了37个细粒度的标志，这些标志被归类为10个顶级标志。我们的重点是预测顶级标签。该数据集发布时有1,499份PubMed摘要[6]，后来扩展到1,852份摘要[5]。请注意，Peng等人[45]放弃了一个由272个摘要组成的控制子集，这些摘要没有讨论任何癌症标志（即所有二元标签都是假的）。我们采用原始数据集，并报告10个癌症标志的微观F1。虽然原始数据集提供了句子级别的注释，但我们遵循通常的做法，在抽象级别上进行评估[19, 60]。我们创建了训练/开发/测试分割，因为以前没有这些数据。

4 2.3.6 问题回答（QA）。

PubMedQA。PubMedQA数据集[25]包含一组研究问题，每个问题都有来自PubMed摘要的参考文本，以及文本是否包含研究问题的答案的注释标签（是/可能/否）。我们使用原始的train/dev/test分割，分别有450、50和500个问题。
BioASQ。BioASQ语料库[42]包含由生物医学专家注释的多个问题回答任务，包括是/否、事实类、列表和摘要问题。与我们比较神经语言模型的目标有关，我们专注于是/否问题（任务7b），并将其他任务的纳入留给未来的工作。每个问题都与包含PubMed摘要中的多个句子和是/否答案的参考文本相匹配。我们使用官方的训练/开发/测试部分，即670/75/140个问题。