iceburg-blogs-CSDN博客

原创命名实体识别Baseline模型BERT-MRC总结

BERT-MRC模型BERT-MRC模型是目前实体识别领域的一个SOTA模型，在数据量较小的情况下效果较其他模型要更好，原因是因为BERT-MRC模型可以通过问题加入一些先验知识，减小由于数据量太小带来的问题，在实际实验中，在数据量比较小的情况下，BERT-MRC模型的效果确实要较其他模型要更好一点。BERT-MRC模型很适合在缺乏标注数据的场景下使用。BERT-MRC模型的理论基础MRC机器阅读理解给定一个文本序列X，它的长度为n，要抽取出其中的每个实体，其中实体都属于一种实体类型。假设该数据集

2020-11-11 15:51:22 15849 23

原创文档级关系抽取方法总结

文章目录文档级关系抽取将关系抽取由句子级扩展到文档级的原因文档级关系抽取数据集DocRED图神经网络图网络结构的分类GCNGP-GNNGraphRelGCNNEoGLSRDyGIE/DyGIE++文档级关系抽取将关系抽取由句子级扩展到文档级的原因目前大多数关系抽取方法抽取单个实体对在某个句子内反映的关系，在实践中受到不可避免的限制：在真实场景中，大量的关系事实是以多个句子表达的。文档中的多个实体之间，往往存在复杂的相互关系。以下图为例，就包括了文章中的两个关系事实（这是从文档标注的19个关系事实中采

2020-07-20 09:28:06 8183 5

原创实体关系抽取任务方法及SOTA模型总结

1 实体关系抽取方法思路实体关系抽取是从文本中的句子里抽取出一对实体并给出实体间关系的任务。该任务的输入是一句话，输出是一个spo三元组（subject-predicate-object）。对于实体关系抽取任务，最容易想到的方法就是先抽取句子中的实体，然后在对实体对进行关系分类，从而找出spo三元组，这种思想被称作管道模型（Pipeline）。管道模型把实体关系抽取分成了两个子任务，实体识别和关系分类，两个子任务按照顺序依次执行，它们之间没有交互。在管道模型之后，可以同时进行实体识别和关系分类的联合模型

2020-05-31 21:02:08 23727 6

原创 Spark大数据计算框架知识总结

文章目录Spark简介Spark架构Spark简介Spark是专为大规模数据处理而设计的计算引擎。Spark拥有Hadoop MapReduce所具有的优点，但不同于MapReduce的是，Spark计算过程中的中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的算法。Spark是对 Hadoop 的补充，它可以通过名为 Mesos...

2020-11-14 13:52:49 2844

原创 EMNLP2020文档级关系抽取模型GLRE 论文Global-to-Local Neural Networks for Document-Level Relation Extraction

文章目录前言1.摘要2.模型2.1编码层2.2全局表示层2.3局部表示层2.4分类层前言这是EMNLP2020一篇文档级关系抽取的论文，代码链接 https://github.com/nju-websoft/GLRE，这篇论文主要有三个亮点：构建了异质图并使用了R-GCN进行特征传播，相较之前一些构建同质图然后做特征传播的模型，使用异质图可以融合更复杂的特征；有一个本地表示层，通过自注意力的计算方式得到一个local entity representation，消融实验证明了这种方式可以提升关系推

2020-11-14 11:42:56 1754

原创 EMNLP2020文档级关系抽取模型GAIN 论文Double Graph Based Reasoning for Document-level Relation Extraction

前言这是EMNLP2020一篇文档级关系抽取的论文，代码链接 https://github.com/DreamInvoker/GAIN，其性能相较ACL2020中的文档级关系抽取模型LSR有一定的提升，其能够有提升的主要原因在于两点：1）构建了异质图并使用了R-GCN进行特征传播，相较之前一些构建同质图然后做特征传播的模型，使用异质图可以融合更复杂的特征；2）增加了关系推理层，构建了一个实体图做关系推理。1.摘要文档级关系抽取的目的是提取文档中实体之间的关系。不同于句子层次的关系抽取，文档需要对文档中

2020-11-13 21:39:13 2215 11

原创 CCKS2020基于本体的金融知识图谱自动化构建技术评测第五名方法总结

评测任务介绍评测地址CCKS 2020: 基于本体的金融知识图谱自动化构建技术评测链接：https://www.biendata.xyz/competition/ccks_2020_5/评测任务金融研报是各类金融研究结构对宏观经济、金融、行业、产业链以及公司的研究报告。报告通常是有专业人员撰写，对宏观、行业和公司的数据信息搜集全面、研究深入，质量高，内容可靠。报告内容往往包含产业、经济、金融、政策、社会等多领域的数据与知识，是构建行业知识图谱非常关键的数据来源。另一方面，由于研报本身所容纳的数据

2020-11-10 15:51:11 3358 6

原创图神经网络总结（GCN/GAT/GraphSAGE/DeepWalk/TransE）

文章目录图神经网络1 游走类模型1.1 DeepWalk随机游走DeepWalk计算节点向量的方式：1.2 Node2VECnode2vec改进后的随机游走方式：1.3 LINE2 消息传递类模型2.1 GCN2.2 GAT2.3 GraphSageGraphSAGE 的采样方法：GraphSAGE 的聚合函数：Mean aggregatorLSTM aggregatorPooling aggregator2.4 HAT元路径（meta-path）meta-path的数学定义：基于meta-path的邻居N

2020-09-24 14:30:54 14234 4

原创 NLP中的预训练方法总结 word2vec、ELMO、GPT、BERT、XLNET

文章目录一.文本的表示方法基于one-hot的词向量二.基于词向量的固定表征方法（词向量模型）2.1 N-gram模型2.2 NNLM2.3 word2vecCBoWSkip-gram层次Softmax负采样三.基于词向量的动态表征方法（预训练语言模型）3.1 什么是预训练语言模型3.2 预训练语言模型的优点3.3 预训练语言模型的分类自回归语言模型自编码语言模型排列语言模型3.4 几种重要的预训练模型介绍1. ELMO2. GPT3. BERTTask 1: MLMTask 2: NSPBERT的缺点4.

2020-08-04 01:42:21 3113

原创 NER中的词汇增强方法(LatticeLSTM、CGN、FLAT、Simple-Lexicon)

文章目录NER中的词汇增强方法Dynamic ArchitectureLatticeLSTMMGLatticeLSTMLR-CNNCGNFLATAdaptive EmbeddingSimple-LexiconNER中的词汇增强方法虽然基于字符的NER系统通常好于基于词汇（经过分词）的方法，但基于字符的NER没有利用词汇信息，而词汇边界对于实体边界通常起着至关重要的作用。如何在基于字符的NER系统中引入词汇信息，是近年来NER的一个研究重点。这种在NER任务中引入词汇的方法又被称为词汇增强。从另一个角度

2020-08-03 14:06:12 7803 2

原创 Doc2EDAG: An End-to-End Document-level Framework for Chinese Financial Event Extraction

Introduction大多数现有的事件提取（EE）方法仅提取句子范围内的事件参数。但是，此类句子级的EE方法难以处理来自新兴应用领域（例如金融，法律，健康等）的大量文档，其中事件论元分散在不同的句子中，甚至多个事件实例在同一文档中同时存在。为了应对这些挑战，本文提出了一种新颖的端到端解决方案 Doc2EDAG，该解决方案可以有效地生成基于实体的有向无环图，以实现文档级事件抽取。下面是论文中举出的一个文档例子，左边是一个事件表，右边是该事件表所在的文档。这篇文档有两个股权质押事件记录，其参数分散在多个句

2020-07-11 16:42:22 1934 1

原创 DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Labeled Tra

Abstract针对事件抽取(Event Extraction)目前面临着训练数据缺乏和文档级别事件抽取两大问题，文章开创性的提出相应的解决方案。第一，训练数据缺乏。ACE 2005 中，各语言的文档数不过几百篇，对深度学习来说，这样的数据量是不足够的。第二，事件抽取还局限于单个句子。而事实上，一个事件往往涉及到触发词和多种事件元素，触发词和所有的事件元素都出现在同一个句子中的理想情况并不常见，因此篇章级的事件提取非常有必要。下图是论文中给出的一个例子，图中的事件Introduction金融事件对

2020-07-11 16:08:33 1311

原创机器阅读理解（MRC）和问答（QA）在信息抽取中的应用

一机器阅读理解（MRC）、问答系统（QA）与信息抽取最近实体关系抽取任务和命名实体识别任务的SOTA模型排行榜中，有很多模型使用到了机器阅读理解（MRC）和问答系统（QA）中思想和方法，如HBT、ETL-span、Multi-turn QA和BERT_MRC等，MRC和QA中的思想和方法的使用，让这些模型相比于传统方法有很大提升。在实体关系抽取任务中，最新的一些模型，如HBT和ETL-span，用到了MRC中经常使用的指针网络方法，通过多层标注序列解决实体重叠问题；Multi-turn QA则使用了问

2020-06-26 09:44:40 6909 4

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Maven私服nexus安装包

hadoop2.7.1的Windows版本

boost1.6安装文件

ik_analyzer中文分析器solr6版及以下版本适用（完整版）

Redis集群搭建工具及教程

Git安装程序，版本2.15

harbor1.8安装包

nodejs安装包

Redis4.0安装（Linux版）

SwitchHosts-0.2.2

dubbo-admin安装文件

ik_analyzer中文分析器solr6版及以下版本适用

JEE商城源代码

空空如也