事件抽取
有梦想有行动
生命的轨迹会沿着你期望的方向走去
展开
-
实体消歧/实体统一/指代消解
1.Entity Disambiguation(实体消歧):就是把一个实体的具体意思搞明白,比如Apple,通过具体方法计算出,它是水果,还是苹果公司。2.Entity Resolution(实体统一 ):给定两个实体,判断是否是指向同一个实体。3.Co-reference Resolution(指代消解):就是文本里的she,he,it到底指代的什么。...原创 2020-10-08 09:50:39 · 2567 阅读 · 0 评论 -
NLP中使用的深度学习的特征提取方式
主要介绍 RNN、CNN、Transformer1.RNN原创 2020-10-04 15:42:05 · 611 阅读 · 0 评论 -
ACE 2005多语种训练语料库
ACE 2005多语种训练语料库项目名: ACE 2005多语种训练语料库介绍ACE 2005多语言培训语料库包含用于2005年自动内容提取(ACE)技术评估的全套英语,阿拉伯语和中文培训数据。语料库由语言数据协会(LDC)在ACE计划的支持下以及LDC的额外协助下,为实体,关系和事件标注的各种类型的数据组成。ACE程序的目标是开发自动内容提取技术,以支持文本形式的人类语言的自动处理。2005年11月,对站点的五个主要方面的系统性能进行了评估:实体,价值,时间表达,关系和事件的识别。实体,关系和事原创 2020-10-04 09:56:58 · 796 阅读 · 0 评论 -
有关预训练字符向量集和词向量集
Lattice-LSTM模型提供了预训练字符向量集和词向量集.字符向量gigaword_chn.all.a2b.uni.ite50.vec是基于大规模标准分词后的中文语料库Gigaword使用Word2vec工具训练的向量集合,向量集规模为704 400个字符和词,包括5 700个单字符向量、29 150个双字符向量和278 100个三字符向量。词向量ctb.50d.vec是基于CTB 6.0(Chinese Treebank 6.0)语料库训练得到的。型。...原创 2020-10-03 19:49:03 · 3159 阅读 · 1 评论 -
语言模型中unigram、bigram、trigram的概念
语言模型中unigram、bigram、trigram的概念unigram 一元分词,把句子分成一个一个的汉字bigram 二元分词,把句子从头到尾每两个字组成一个词语trigram 三元分词,把句子从头到尾每三个字组成一个词语.softword :视情况而定的分词?????...原创 2020-10-03 15:27:48 · 6989 阅读 · 0 评论 -
leveraging FrameNet to Improve Automatic Event Detection
作者发现FrameNet中定义的框架与用于事件抽取模型效果评估的ACE数据集中的事件结构具有很高的相似度,由此提出使用FrameNet中的知识来自动产生带有标注的数据,对原数据进行扩展,发现应用相同模型时,使用加入新数据后训练的模型效果有了显著的提升。FrameNet是一个语言资源库,一个Frame由一个词法单元(Lexical Unit)和多个框架元素(Frame Elements)构成,这与一个句子中要抽取一个trigger与多个arguments的思路十分相似。作者首先使用ACE的语料训练了一个3层原创 2020-09-30 08:15:05 · 503 阅读 · 0 评论 -
Exploiting Argument Information to Improve Event Detection via Supervised Attention Mechanisms
旨在通过Arguments的信息来进一步提升ED任务的准确度,作者发现大家在构建ED模型是没有显式地利用Arguments的信息,所以提出可以通过supervised attention mechanisms来对这些信息加以利用。下面为模型结构:模型使用了当前输入单词,及其定长的前后共nnn个单词,以及这些单词的命名实体类型共同组成模型的输入。图中绿色部分www为单词的词向量表示,紫色部分eee为单词对应的命名实体表示,蓝色部分w‾\overline{w}w是将www经过一次变换后的隐层表示。随后,基原创 2020-09-29 14:28:22 · 548 阅读 · 0 评论