![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
论文阅读
文章平均质量分 79
今天NLP了吗
这个作者很懒,什么都没留下…
展开
-
【论文阅读】PRGC: Potential Relation and Global Correspondence Based Joint Relational Triple Extraction
https://arxiv.org/pdf/2106.09895先指出TPLinker存在的问题:为了避免曝光偏差,它利用了相当复杂的解码器,导致了稀疏的标签,关系冗余,基于span的提取能力差作者提出新的模型,包括三部分:Potential Relation PredictionRelation-Specific Sequence TaggingGlobal Correspondence对于主客体对齐,设计了一个关系无关的全局对应矩阵,用于确定特定的主客体。给定一个句子,模型先预测一.原创 2021-06-28 19:46:05 · 1655 阅读 · 0 评论 -
【论文阅读】Document-level Relation Extraction as Semantic Segmentation
创新将Doc RE视为文档级语义分割任务,编码层使用bert编码,鉴于bert最大能到512个词,使用动态窗口对整个文档进行编码。送入bert前,利用<e> </e>标注mention,以便定位实体的位置。使用logsumexp pooling汇集实体,去获得最终的实体embedding计算实体关系矩阵中,实体之间的相关性。计算方法有两种:基于相似度的方法。es与eo的element-wise similarity、es与eo的余弦相似度、es与eo的bil原创 2021-06-09 14:35:08 · 940 阅读 · 0 评论 -
【论文阅读】Entity and Evidence Guided Relation Extraction for DocRED
摘要把实体放在文档前面。若一个句子有N个实体,就构造N个这样的序列。例如,H代表头实体,D代表文档:[CLS]+H+[SEP]+D+[SEP]拿到H的embedding后,average后得到实体的embedding hhh。对于尾实体的embedding,定位到他的位置,同样average得到embedding tkt_ktk拿到头实体的embedding以及所有尾实体的embedding,送入双线性层,接sigmoid激活函数,预测蕴含的关系定义了多标签的交叉熵损失函数.原创 2021-05-16 15:46:34 · 317 阅读 · 0 评论 -
【论文阅读】句向量总结、文本相似度计算
句向量不定长的句子用定长的向量表示,为NLP下游任务提供服务。对于word embedding,训练完以后每个词对应一个向量,可以直观地判断embedding的好坏。但是,对于sentence embedding,它的评测是没有ground truth的。只能将sentence embedding送入下游任务,根据在下游任务的表现来评测其质量。换句话说,其实不存在单独的sentence embedding算法,只有嵌入在NLP系统中的sentence embedding模块。应用语义搜索:通过原创 2021-04-28 12:13:07 · 2588 阅读 · 0 评论 -
【论文阅读】batch normalization与layer normalization 在nlp的比较
文章目录BNBN神经网络学习的过程,本质是为了学习数据的分布。一旦训练数据和测试数据的分布不同,网络的泛化能力就会大大降低。一个batch的训练数据分布不同,网络就需要每次迭代去适应不同的分布,这会大大降低网络的训练速度。有人提出可以用...原创 2021-03-21 12:25:59 · 393 阅读 · 0 评论 -
【论文阅读】Attention Guided Graph Convolutional Networks for Relation Extraction
把句法依存树当成输入在n元关系抽取,大规模句子级别关系抽取都能充分利用依存树的信息https://github.com/Cartus/AGGCN_TACRED文章目录创新:GCN注意力引导层密连接层线性组合层关系抽取层创新:提出soft pruning策略,把一颗完整的依存树送到全连通边加权图里。这里的权重就通过attention学习得到GCN给定一个图,有n个节点,我们可以用n∗nn*nn∗n的邻接矩阵表达这个图结构。可以把边的方向性扩展到模型中,用来编码依存树每个结点都添加一个.原创 2021-03-19 19:50:58 · 514 阅读 · 1 评论 -
【论文阅读】Entity Structure Within and Throughout: Modeling Mention Dependencies for Document-Level Relat
Entity Structure Within and Throughout: Modeling Mention Dependencies for Document-Level Relation ExtractionAAAI 20211. 实体构造考虑以下两种结构共现结构: 两个词是否在同一个句子中共指结构: 两个提及是否指向同一个实体这两种结构都可以TRUE FALSE来描述对于共现结构,我们将文档分割成句子,并将它们作为显示提及交互的最小单元。我们分别表示它们是内部的和句子间的。.原创 2021-02-23 12:15:18 · 1988 阅读 · 9 评论 -
【论文阅读】Inter-sentence Relation Extraction with Document-level Graph Convolutional Neural Network
ACL 2019没有代码目录1.Input Layer2.Graph Construction2.1 Syntactic dependency edge2.2 Coreference edge2.3 Adjacent sentence edge2.4 Adjacent word edge2.5 Self-node edge3.GCNN Layer4.MIL-based Relation Classification5.总结我们将一个完整的论文摘要和两个目标实体作为输入,并在输入层中提到他们。构.原创 2021-02-19 16:47:46 · 445 阅读 · 0 评论 -
【论文阅读】Two Training Strategies for Improving Relation Extraction over Universal Graph
https://github.com/baodaiqin/UGDSRE模型分为四部分,KG编码器、句子证据编码器、路径证据编码器、关系分类层。KG Encoder假设有一个KG包含事实三元组O={(e1,r,e2),...}O=\{(e_1,r,e_2),...\}O={(e1,r,e2),...}KG编码器将e1,r,e2e_1,r,e_2e1,r,e2分别映射到低维向量h,t,rh,t,rh,t,rKG编码器采用TransE对给定的三元组打分。TransE使用公式1对三元组打.原创 2021-02-16 09:59:20 · 219 阅读 · 1 评论 -
【论文阅读】An End-to-end Model for Entity-level Relation Extraction using Multi-instance Learning
EACL 2021https://github.com/lavis-nlp/jerex提出基于参考解析的多任务学习方法,实现端到端联合关系抽取。模型分为四部分:Entity Mention Localization用span的方法抽取文档中的实体,相比于BIO的方法,它更能检测重叠实体。对实体span做max-pooling提及分类器采用下面的式子。把span表示e(s)e(s)e(s)以及span大小的embeddingwk+1sw^s_{k+1}wk+1s拼接起来,送入两层的前.原创 2021-02-14 16:45:25 · 634 阅读 · 0 评论 -
【论文阅读】Coarse-to-Fine Entity Representations for Document-level Relation Extraction
它采用从粗到细的策略集成全局上下文信息,同时对目标实体之间的远程交互进行建模,从而获得全面的实体表示。首先,我们使用全连接卷积网络(DCGCN)在粗层次上整合整个图中的全局上下文信息。D表示包含N个句子的文档。图2显示了一个文档级的示例图,对应于一个两句话的文档。该图将文档中的单词视为节点,并通过五类边捕获文档件交互。这些无向边的描述如下。语法依赖边我们使用spaCy2中的依赖解析器来解析每个句子的语法依赖树。然后,我们在所有有依赖关系的节点对之间添加边。相邻词边在相邻单词之间添加.原创 2021-02-08 13:53:20 · 489 阅读 · 0 评论 -
【论文阅读】Named Entity Recognition in the Style of Object Detection
来自微软作者没有贴代码链接借用了计算机视觉中两阶段目标检测的思想和它们如何构造损失函数的方法。模型架构1. 预测实体区域预测实体的开始和结尾。结构很简单,bert出来一个线性层,预测开始和结尾。使用的交叉熵损失。作者对预测的过长实体直接丢弃,并在论文里对丢弃的实体道歉?2. 实体分类仍然用的bert,这阶段有2个任务:实体损失实体类型分类损失α\alphaα和β\betaβ用于控制边界损失和实体损失的权重只有当start到end这块区域真的匹配实体,才计算LtypeL_.原创 2021-01-28 16:42:19 · 162 阅读 · 1 评论 -
【论文阅读】Joint Entity and Relation Extraction with Set Prediction Networks
作者提供的代码链接404了,https://github.com/DianboWork/SPN4RE目前在NYT和WebNLG上都是SOTAhttps://paperswithcode.com/task/relation-extraction1.编码器用bert2.三元组非自回归解码器PL代表句子可能包含的三元组个数,论文中统一设置为m个,m大于所有句子包含的三元组个数。代表某个三元组Yi,不仅和给定的句子X有关系,而且与其他某个三元组Yj有关系。使用transformer作为解码.原创 2021-01-16 14:07:49 · 3053 阅读 · 5 评论 -
【论文阅读】Improving Document-level Relation Extraction via Contextualizing Mention Representations and W
ICKG 2020作者提供的源代码Improving Document-level Relation Extraction via Contextualizing Mention Representations and Weighting Mention Pairs1. embedding层每一个单词搞成word embedding,实体类型embedding,共指embedding,这三者的拼接。将对应于同一实体的提及赋值为相同的实体id,并将实体id映射到向量中作为共指embedding.原创 2021-01-12 14:46:19 · 254 阅读 · 0 评论 -
DocRED数据集解析
github地址国内下载链接训练集、验证集、测试集国内下载docred其他内容{ 'title', 'sents': [ [word in sent 0], [word in sent 1] ] 'vertexSet': [ [ { 'name': mention_name,原创 2021-01-11 14:13:19 · 2083 阅读 · 9 评论 -
【论文阅读】Document-Level Relation Extraction with Adaptive Thresholding and Localized Context Pooling
AAAI 2021源代码创新没有引入图结构,而是把上下文embedding融入到实体embedding提出自适应阈值损失,而非设定死板的全局阈值编码器还是使用基础的bert,但是在扔进bert之前,对文档中的实体提及前后加以 * 标记对于每个实体,因为有好多个提及,把他们编码后的embedding,使用logsumexp pooling,得到实体的embedding表示。获取一对实体的embedding以后,分别送入线性层,tanh再激活一下,二者一起送入全连接层,用sigmoid计.原创 2021-01-10 20:00:47 · 1749 阅读 · 2 评论 -
【论文阅读】Document-Level Relation Extraction with Reconstruction(AAAI2021)
作者提供的代码2021 AAAI提出,没有关系的实体对会影响编码器的attention效果。创新:将更多的注意力放在有关系的实体对上,对路径重构。重构方法最常用在神经机器翻译NMT上,解决翻译不够充分的问题。作者证明了用在DocRE效果也很好。1. 异构图构建假设一个文档有L个句子,每个句子有J个词。使用BILSTM对其进行编码。如上图所示,异构图包含提及结点、实体结点、句子结点。作者在指向相同实体的不同提及之间,还加了Mention-Coreference边。2.编码器使用图注意力网.原创 2021-01-07 09:26:10 · 2046 阅读 · 1 评论 -
【论文阅读】Graph Enhanced Dual Attention Network for Document-Level Relation Extraction
2020年11月Coling引入了从句子到关系S2R和从关系到句子R2S的双向注意力机制。创新:双attention机制正则化处理引入证据支持向量作为注意力权重的监督信号1.编码层使用BILSTM对文档编码,将输入文档转化成1)词embedding 2)实体类型embedding 3)实体在docred首次出现的顺序embedding,得到H (n*2h)使用max-pooling获得每个句子的语义表示对于一个实体,在文档中可能有不同的实体提及。作者对于文档中位于第a到第.原创 2021-01-02 10:53:28 · 637 阅读 · 4 评论 -
SCIERC数据集解析
数据集样例六种实体类型Task, Method, Metric,Material, Other-ScientificTerm and Generic七种关系类型Compare, Part-of, Conjunction, Evaluate-for, Feature-of, Used-for, HyponymOf{ "clusters": [ [ [ 6, 11 ], [ 21,原创 2020-12-20 19:31:37 · 2720 阅读 · 7 评论 -
【论文翻译】TPLinker: Single-stage Joint Extraction of Entities and Relations Through Token Pair Linking
近年来,从非结构化文本中提取实体和关系引起了越来越多的关注,但仍然具有挑战性,因为识别与共享实体的重叠关系具有内在的困难。以前的研究表明,联合学习可以带来显著的性能提升。然而,它们通常涉及顺序相关的步骤,并遭受暴露偏差的问题。在训练时,它们利用地面的真实条件进行预测,而在推理时则需要从零开始进行提取。这种差异导致误差累积。为了缓解这一问题,本文提出了一种单阶段联合提取模型,即TPLinker,该模型能够发现共享一个或两个实体的重叠关系,同时不受暴露偏差的影响。TPLinker将联合提取归结为标记对连接问题.翻译 2020-12-17 16:21:43 · 3799 阅读 · 4 评论 -
【论文翻译】Denoising Relation Extraction from Document-level Distant Supervision
1. 介绍关系抽取(relationship extraction, RE)的目的是识别文本实体之间的关系事实。最近,神经关系提取(NRE)模型在句子级RE中得到了验证。远程监控(DS) 提供了大规模的远程监控数据,使实例成倍增加,并支持足够的模型训练。句子层次的重新重点是提取句子中实体之间的句子内关系。然而,由于存在大量的句间关系事实隐藏在多个句子中,在实践中其通用性和覆盖面受到极大的限制。对从维基百科文档构建的大规模RE数据集的统计表明,至少40:7%的关系事实只能从多个句子中推断出来。大多数Do翻译 2020-12-17 14:29:55 · 628 阅读 · 0 评论