自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 文档级(Document-level)关系抽取(RE)目前的一些最新进展(海量论文,干货满满)

0. 引言摘要关系抽取是从纯文本中提取未知关系事实,并将其添加到知识图中,是自动构建大规模知识图的关键任务。1. multi-task: NER+RE1.1 Simultaneously Linking Entities and Extracting Relations from Biomedical Text Without Mention-level Supervision(AAAI 2020)3. Document Level3.1...

2020-09-28 20:59:03 7259 5

原创 长文本或者文档级别的关系提取任务 SCIREX: A Challenge Dataset for Document-Level Information Extraction (ACL2020)

0. 引言1. 摘要从完整的文档中提取信息在许多领域都是一个重要的问题,但是大多数以前的工作都集中在识别句子或段落中的关系上。在文档级创建大规模信息提取数据集是一项挑战,因为它需要理解整个文档,以注释实体及其文档级关系,这些关系通常跨越句子甚至章节。在本文中,我们介绍了SCIREX,一个文档级的IE数据集,它包含多个IE任务,包括显著实体识别和来自科学文章的文档级N元关系识别。我们利用现有的科学知识资源,通过集成自动和人工标注来标注数据集。我们开发了一个神经模型作为强基线,将以前最先进的IE模型扩展到文

2020-09-28 09:09:06 1752 2

原创 Exploring Font-independent Features for Scene Text Recognition (ACM2020)研究场景文本中与字体无关的特征

0. 引言1. 摘要近年来,场景文本识别(STR)已得到了广泛的研究。许多最近提出的方法都是经过专门设计的,以适应场景文本的任意形状,布局和方向,但是忽略了各种字体(或书写)样式也给STR带来了严峻挑战。这些方法(使字符的字体特征和内容特征纠缠在一起)在具有新颖字体样式的文本的场景图像上的文本识别中表现不佳。为了解决这个问题,我们通过注意生成大量字体样式的字形来探索场景文本的字体无关特征。具体来说,我们引入可训练的字体嵌入来塑造生成的字形的字体样式,场景文本的图像特征仅代表其基本模式。生成过程以空间注

2020-09-25 09:19:43 2476

原创 深入了解什么是信息抽取Information Extraction以及如何做IE(NER+关系抽取)更新ing

0. 引言信息抽取虽然现在做的不是很成熟,但是在我们工作中会经常用到。特别的是将一些非结构化数据转化为结构数据。其实很多信息抽取的工作都是人工做的,人工+自动化是主要潮流。信息抽取涉及到几个方面内容:命名实体识别、文本特征工程、关系抽取(基于规则/监督学习)。还有一些比较细的操作,例如实体消岐、实体统一、指代消解、句法分析等等。1. 信息抽取概要信息化抽取最重要的是如何将非结构化数据提取关键信息变为关键数据,例如图片、视频、文本、语音等等我们可以通过一些模型整理成有结构的数据库形式,即结构化数据。

2020-09-23 11:06:57 3989

原创 文本领域的数据预处理技术、深度学习训练技巧以及Debug经验

0. 引言1. 文本领域的数据预处理技术1.1 文本纠错1.2 低频词处理1.3 停用词1.4 关键词提取1.5 短语提取1.6 文本数据增强2. 深度学习训练技巧2.1 学习率调整2.2 梯度修正2.3 参数初始化2.4 归一化3 . 深度学习Debug...

2020-09-03 16:16:29 5572 2

原创 Seq2seq模型详解(attention mechanism+evaluation methods +Curriculum +Machine Translation)

引言Seq2seq Frameworkattention mechanismBLEUROUGEevaluation methodstraining mechanismMachine Translation

2020-09-02 11:01:26 1666

原创 全方位总结和深入循环神经网络RNN

引言对于NLP任务有个很典型的任务,叫做情感分类,还有对话机器人,诗词生成,还有slot填充任务等等都是可以用RNN来做的(这里我们说的RNN是广义的RNN)。为什么这些任务需要RNN呢?因为某些任务需要能够更好地处理序列信息,即前面的输入和后面的输入是有关系的,因此需要模型具备记忆能力。简单版本RNNRNN为什么会有记忆能力呢,首先我们看一下RNN的结构:xxx是一个向量,它表示某个时刻输入层的值(多个时刻的xxx组成一个序列);sss是一个向量,它表示隐藏层的值;UUU是输入层

2020-09-01 23:35:13 2444

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除