【论文阅读笔记】Biomedical Event Extraction via Long Short Term Memory Networks along Dynamic Extended Tree

本文发表在2016 IEEE International Conference on Bioinformatics and Biomedicine (BIBM)

       从非结构化文本中提取知识是自然语言处理的最重要目标之一,特别是在生物医学事件提取领域。在本文中,使用来自BioNLP'16细菌生物群落共享任务的语料库描述了从生物医学文献中提取生物医学和细菌中的生物医学事件的系统。目前用于事件提取的主流方法基于浅机器学习方法。但是,这些方法主要依赖于域体验,需要大量的手动选择功能。因此,提出了一种用于事件提取的新型长短期记忆(LSTM)网络框架DET-BLSTM。在本文的框架中,引入动态扩展树作为输入而不是原始句子,其利用句法信息。此外,添加POS和距离嵌入以丰富输入信息,因此可以跳过复杂的特征提取。最后,构建双向LSTM模型来提取生物医学事件,并在测试集中实现57.14%的F-分数。模型获得了比BioNLP-ST 2016的所有官方提交的更好的F-分数,比最佳系统高1.34%。

具体做法为:

首先,引入动态扩展树(DET)作为输入而不是原始句子,充分利用句法信息。

根据语料库分析,SPT(shortest path tree)中的叶节点数量通常少于7个,因此除了两个实体名称外,它们包含的信息较少。文中提出了一种新的动态扩展策略。默认情况下,采用原始SPT作为输入;当SPT中叶子节点的数量小于7且大于3时,SPT将替换为DET(动态扩展树),其中实体周围最近的节点被扩展。

第二,包括POS嵌入和距离嵌入在内的语言信息用于丰富输入信息。

word embedding:

该模型考虑了生物医学领域特定词嵌入和POS嵌入的领域信息[11],使用从MedLine下载的数据集来训练单词嵌入,其中包含599万个单词。

Distance Embedding:

从语料库中,发现如果两个实体之间的距离(单词的数量)很短,则实体对更可能构成事件。为此,文中尝试了Zeng等人提出的距离嵌入(位置特征)[12]。距离嵌入是从当前字与目标的相对距离导出的。每个相对距离映射到固定维度的向量,距离初始化采用如下公式,其中l为相对距离,s是语料库中的最大相对距离。

 

POS embeddings :

文中POS tag使用NTLK oarser处理得到

第三,构建双向LSTM模型以从前向和后向获得不同的信息。

整个网络结构如下:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值