自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(51)
  • 收藏
  • 关注

原创 文本生成任务之营销文本生成(Seq2seq+attention、Pointer Generator Network、Converage、Beam Search、优化技巧、文本增强)

引言文本生成(Text Generation)具体可以细分成文本摘要、机器翻译、故事续写等几种任务。本项目主要用到的是文本摘要(Summarization)的技术。我们生成摘要的方式是选取其中关键的句子摘抄下来。相反,生成式摘要则是希望通过学习原文的语义信息后相应地生成一段较短但是能反应其核心思想的文本作为摘要。生成式摘要相较于抽取式摘要更加灵活,但也更加难以实现。本项目我们将会先用生成式摘要的方法构建一个 Seq2seq+Attention的模型作为 baseline,然后构建一个结合了生成式和抽取式

2020-08-29 15:07:29 1376 10

原创 由浅入深尝试图书分类任务实战(特征工程+GBDT、机器学习模型、深度学习模型)

引言在本项目中,我们主要来解决文本单标签的任务。数据源来自于京东电商, 任务是基于图书的相关描述和图书的封面图片,自动给一个图书做类目的 分类。这种任务也叫作多模态分类。在这个实战中,我掌握学习到以下的代码实践:文本特征提取:任何建模环节都需要特征提取的过程,你将会学到如何使用 tfidf、wor2vec、FastText 等技术来设计文本特征。图片特征提取:由于项目是多模态分类,图片数据也是输入信号的一 部分。你可以掌握如何通过预训练好的 CNN 来提取图片的特征, 并且结合文本向量一起使用。

2020-07-31 16:32:36 1870 7

原创 Syntax- and Execution-Aware SQL Generation with Reinforcement Learning (记EMNLP2019一次投稿)

引言我们那一篇ACL2019的论文简单介绍了什么叫做Text-to-SQL任务,文本到SQL任务的目的是将自然语言语句映射为结构化的SQL查询。很多工作都是关注于如何生成一个SQL语句,而没有关注怎样可以更高效的利用数据库信息以及SQL模板来指导SQL的生成。前人有一个工作是Execution-Guided Decoding,核心思想是使用部分程序的执行结果来筛选过滤出无法完成的结果以获得正确答案(见下图)。我们在这次工作中在考虑知识库结构( knowledge bases )和SQL查询语法(synta

2020-07-28 19:25:39 2140

原创 Transition-based Graph Generation For Text-to-SQL Task 文本生成SQL(记ACL2019一次投稿)

引言

2020-07-23 18:38:21 3916 4

原创 看一看最近GCN的论文如何玩出花样?

1. Language-Conditioned Graph Networks for Relational Reasoning在本文中我们采用了一种方法,为视觉场景中的对象构建上下文化表示,以支持关系推理。我们提出了一个语言条件图网络的一般框架,其中每个节点代表一个对象,并通过基于文本输入的迭代消息传递由相关对象的文本感知表示来描述。给定一个视觉场景和一个推理任务的文本输入,如VQA或参考文献,我们建议为场景中的每个实体构造一个上下文化的表示,它包含语言输入中指定的推理过程所需的关系信息。这种语境化的

2020-11-20 19:24:41 5

原创 金融领域中文与训练BERT模型FinBERT

引言FinBERT

2020-11-12 23:00:15 37

原创 Double Graph Based Reasoning for Document-level Relation Extraction(EMNLP2020)

1. 引言2. 摘要文档级关系提取的目的是提取文档中实体之间的关系。与句子级关系提取不同,它需要在文档中对多个句子进行推理。本文提出了一种具有双图特征的图聚合推理网络(GAIN)。GAIN首先构建了一个异构的提到级图(hMG)来建模文档中不同提到之间的复杂交互。构造了实体层图,并在此基础上提出了一种新的路径推理机制来推断实体之间的关系。在公共数据集DocRED上进行的实验表明,与之前的技术相比,GAIN取得了显著的性能改进。3. 动机如图1所示,由于主语和宾语出现在同一个句子中,很容易识别句内关系

2020-11-10 20:55:05 35

原创 【BERT蒸馏】DistilBERT、Distil-LSTM、TinyBERT、FastBERT(论文+代码)

引言

2020-10-24 11:23:10 246

原创 Joint Extraction of Entities and Relations Based on a Novel Decomposition Strategy (ECAI2020)

0. 引言1. 摘要实体和关系联合提取的目的是利用单一模型检测实体对及其关系。以往的工作通常采用先提取后分类或统一标注的方式来解决这个问题。但是,这些方法在提取实体和关系的过程中要么存在冗余实体对,要么忽略了重要的内部结构。针对这些局限性,本文首先将联合抽取任务分解为两个相互关联的子任务,即HE抽取和TER抽取。前一个子任务是区分所有可能涉及到目标关系的头实体,后一个子任务是识别每个提取的头实体对应的尾实体和关系。然后,基于我们提出的基于span的标记方案,将这两个子任务进一步分解为多个序列标记问题,并

2020-10-15 11:05:41 94

原创 关系抽取RE的一些最新论文解读(三)

文章目录0. 引言1. A General Framework for Information Extraction using Dynamic Span Graphs (NAACL2019)2. Entity, Relation, and EE with Contextualized Span Representations(emnlp2019)3. CopyMTL: Copy Mechanism for Joint Extraction of Entities and Relations with Mu

2020-10-08 09:12:40 209

原创 多重关系抽取(Multiple-Relations)的一些最新顶会论文(海量论文,干货满满)

0. 引言1. A Novel Cascade Binary Tagging Framework for Relational Triple Extraction(ACL 2020)1.1 摘要从非结构化文本中提取关系三元组是构建大规模知识图的关键。然而,现有的研究在**解决同一句子中的多个关系三元组共享相同实体的重叠三元组问题**上很少有出色的成果。在这项工作中,我们引入了一个新的视角来重新审视关系三元提取任务,并提出了一个新的级联二元标记框架(CASREL),该框架源于一个原则性的问题公式。我们的

2020-10-04 21:00:20 246

原创 文档级(Document-level)关系抽取(RE)目前的一些最新进展(海量论文,干货满满)

0. 引言摘要关系抽取是从纯文本中提取未知关系事实,并将其添加到知识图中,是自动构建大规模知识图的关键任务。1. multi-task: NER+RE1.1 Simultaneously Linking Entities and Extracting Relations from Biomedical Text Without Mention-level Supervision(AAAI 2020)3. Document Level3.1...

2020-09-28 20:59:03 280 1

原创 长文本或者文档级别的关系提取任务 SCIREX: A Challenge Dataset for Document-Level Information Extraction (ACL2020)

0. 引言1. 摘要从完整的文档中提取信息在许多领域都是一个重要的问题,但是大多数以前的工作都集中在识别句子或段落中的关系上。在文档级创建大规模信息提取数据集是一项挑战,因为它需要理解整个文档,以注释实体及其文档级关系,这些关系通常跨越句子甚至章节。在本文中,我们介绍了SCIREX,一个文档级的IE数据集,它包含多个IE任务,包括显著实体识别和来自科学文章的文档级N元关系识别。我们利用现有的科学知识资源,通过集成自动和人工标注来标注数据集。我们开发了一个神经模型作为强基线,将以前最先进的IE模型扩展到文

2020-09-28 09:09:06 81 1

原创 Exploring Font-independent Features for Scene Text Recognition (ACM2020)研究场景文本中与字体无关的特征

0. 引言1. 摘要近年来,场景文本识别(STR)已得到了广泛的研究。许多最近提出的方法都是经过专门设计的,以适应场景文本的任意形状,布局和方向,但是忽略了各种字体(或书写)样式也给STR带来了严峻挑战。这些方法(使字符的字体特征和内容特征纠缠在一起)在具有新颖字体样式的文本的场景图像上的文本识别中表现不佳。为了解决这个问题,我们通过注意生成大量字体样式的字形来探索场景文本的字体无关特征。具体来说,我们引入可训练的字体嵌入来塑造生成的字形的字体样式,场景文本的图像特征仅代表其基本模式。生成过程以空间注

2020-09-25 09:19:43 1651

原创 深入了解什么是信息抽取Information Extraction以及如何做IE(NER+关系抽取)更新ing

0. 引言信息抽取虽然现在做的不是很成熟,但是在我们工作中会经常用到。特别的是将一些非结构化数据转化为结构数据。其实很多信息抽取的工作都是人工做的,人工+自动化是主要潮流。信息抽取涉及到几个方面内容:命名实体识别、文本特征工程、关系抽取(基于规则/监督学习)。还有一些比较细的操作,例如实体消岐、实体统一、指代消解、句法分析等等。1. 信息抽取概要信息化抽取最重要的是如何将非结构化数据提取关键信息变为关键数据,例如图片、视频、文本、语音等等我们可以通过一些模型整理成有结构的数据库形式,即结构化数据。

2020-09-23 11:06:57 1604

原创 文本领域的数据预处理技术、深度学习训练技巧以及Debug经验

0. 引言1. 文本领域的数据预处理技术1.1 文本纠错1.2 低频词处理1.3 停用词1.4 关键词提取1.5 短语提取1.6 文本数据增强2. 深度学习训练技巧2.1 学习率调整2.2 梯度修正2.3 参数初始化2.4 归一化3 . 深度学习Debug...

2020-09-03 16:16:29 976 2

原创 Seq2seq模型详解(attention mechanism+evaluation methods +Curriculum Learning+Machine Translation)

引言Seq2seq Frameworkattention mechanismBLEUROUGEevaluation methodstraining mechanismMachine Translation

2020-09-02 11:01:26 383

原创 全方位总结和深入循环神经网络RNN

引言对于NLP任务有个很典型的任务,叫做情感分类,还有对话机器人,诗词生成,还有slot填充任务等等都是可以用RNN来做的(这里我们说的RNN是广义的RNN)。为什么这些任务需要RNN呢?因为某些任务需要能够更好地处理序列信息,即前面的输入和后面的输入是有关系的,因此需要模型具备记忆能力。简单版本RNNRNN为什么会有记忆能力呢,首先我们看一下RNN的结构:xxx是一个向量,它表示某个时刻输入层的值(多个时刻的xxx组成一个序列);sss是一个向量,它表示隐藏层的值;UUU是输入层

2020-09-01 23:35:13 1500

原创 卷积神经网络(CNN)的进化史以及常用的CNN框架

引言

2020-08-31 17:04:48 1491

原创 深度神经网络(DNN)&& 卷积神经网络(CNN)

引言

2020-08-31 17:02:24 104

原创 记录一些Pytorch方便的函数<即插即用>

引言Pytorch自己有一些函数可以实现很复杂的一些功能,自己以前想创建一个tensor,经常傻乎乎的创建一个空Tensor,然后再慢慢调整,不但不美观,而且有的时候时间复杂度很高。这个博客记录了一些Pyrotch的很方便的函数,想实现某个功能时,可以去查阅一下有没有一步到位的函数。TORCH.FULLtorch.full(size, fill_value, out=None, dtype=None, layout=torch.strided, device=None, requires_grad=F

2020-08-30 23:16:30 213

原创 Beam Search的学习笔记(附代码实现)

引言

2020-08-30 10:57:01 312 1

原创 ECCV 2020 ——RobustScanner: Dynamically Enhancing Positional Clues for Robust Text Recognition

引言摘要基于注意力的编解码框架最近在场景文本识别方面取得了令人瞩目的成果,并且随着识别质量的提高,出现了许多变体。然而,它在无上下文文本(如随机字符序列)上的性能较差,这在大多数实际应用场景中是不可接受的。本文首先深入研究了译码器的解码过程。实验发现,典型的字符级序列译码器不仅利用了上下文信息,而且还利用了位置信息。现有的大量依赖上下文信息的方法导致了注意力漂移的问题。为了抑制注意力漂移带来的副作用,我们提出了一种新的位置增强分支,并将其输出与解码器注意模块的输出动态融合,用于场景文本识别。具体地说,它

2020-08-18 21:42:42 150

原创 基于少量标记样本的真实场景中的文本识别(Text Recognition in Real Scenarios with a Few Labeled Samples)

引言摘要场景文本识别(STR)由于其广泛的应用,一直是计算机视觉领域的研究热点。现有的研究主要集中在学习一个通用的模型,用大量的合成文本图像来识别无约束的场景文本,并取得了实质性的进展。然而,这些方法在许多实际场景中并不十分适用:1)需要较高的识别精度,而2)缺少标记样本。为了解决这一挑战性问题,本文提出了一种在合成源域(具有多个合成标记样本)和一个特定目标域(只有一些或几个真实标记样本)之间建立序列自适应的方法。这是通过一种注意机制同时学习每个字符的特征表示,并通过对抗性学习建立相应的字符级潜在子空间

2020-08-17 22:47:45 121

原创 对于数据不平衡问题的处理

引言

2020-08-12 21:24:50 562

原创 Transformer的个人笔记

引言Google的论文《Attention is all you need》一提出,为nlp的很多任务翻开了新的一页。无论是知乎还是博客上都有很多生动具体的见解,我这里会结合自己阅读论文以及代码实现,对Transformer的一些个人理解和个人思考。先来看一下这篇论文的摘要传统的Seq2seqRNN网络存在很明显的缺点:首先很难像CNN一样并行化处理,这样无法捕捉并行化特征其次很难想CNN一样做的很深,像CNN一样做很多层在RNN中实现效果不好。长距离依赖TransformerTran

2020-08-09 19:58:42 387

原创 初探句法分析

#引言

2020-08-06 23:04:55 771

原创 日常遇到的小问题(更新到 2020/09/01)

为什么FastText没有考虑语序,然而效果仍然很好?FastText其实也是用了一种词袋模型,语序的特征确实没有考虑,不过鉴于CNN在文本分类的表现也比较优秀,对于分类任务,我觉得上下文的特征还是比语序的特征更加重要。如何理解LDA VS PLSAPLSA中,主题分布和词分布都是唯一确定的。但是,LDA的作者们采用的是贝叶斯派的思想,认为它们应该服从一个分布,所以主题分布和词分布是不确定的。这里相当于抛硬币,对于PLSA,所以这个参数是固定的唯一的;而贝叶斯学派(LDA)看来 事实上有很多很多硬币

2020-07-27 17:55:51 126

原创 Pointer Network指针网络

Why Pointer NetworkStructure of Pointer NetworkHow to process language generation by incorporating Pointer NetworkGet To The Point: Summarization with Pointer-Generator NetworksCopyNetProduct abstract generation through pointer network

2020-07-25 11:19:07 1087

原创 LDA文本主题模型的学习笔记

引言LDA简介一些你需要了解的数学知识如何理解LDALDA的一些参数设计如何求解LDA(Gibbs Sampling和变分推断)PLSA 和 LDA 的区别

2020-07-24 23:32:08 2678 1

原创 深入浅出语言模型(四)——BERT的后浪们(RoBERTa、MASS、XLNet、UniLM、ALBERT、TinyBERT、Electra)

引言上一节我们讲到了BERT,如果要用一句时下正流行的话来形容 BERT 的出现,这句话大概再恰当不过: 一切过往, 皆为序章。 Bert出现之后,研究者们开始不断对其进行探索研究,提出来各式的改进版,再各类任务上不断超越Bert。针对Bert的改进,主要体现在增加训练语料、增添预训练任务、改进mask方式、调整模型结构、调整超参数、模型蒸馏等。下面对近年来Bert的改进版本的关键点做叙述。上一章说了BERT模型存在一些缺点。所以,AR方式所带来的自回归性学习了预测 token 之间的依赖,这是

2020-07-22 10:29:10 919

原创 深入浅出语言模型(三)——语境化词向量表示(CoVe、ELMo、ULMFit、GPT、BERT)
原力计划

引言上一节我们讲到了什么叫做静态词向量,静态词向量有个很大的特点就是每个词的表示是固定的,这样就不能解决我们人类语言中的一词多义问题,例如“I hurt my back, while I backed my car”,这句话中前一个"back"是一个名词,表达“后背”的意思;后一个“back”是动词,表达“倒车”的意思。所以这两个词向量应该是不一样的,应该考虑上下文来确定某个词在一个句子中表达什么意思,这样上下文词向量,也叫语境化词向量就应运而生了。Contextualized Embedding(语境

2020-07-21 11:09:00 2895 4

原创 深入浅出语言模型(二)——静态语言模型(独热编码、Tf-idf、word2vec、FastText、glove、Gussian Embedding、Pointcare Embedding )

引言上一节讲述了我们的语言模型,什么是语言模型以及如何得到语言模型还有一些语言模型有趣的应用。对于我们一句话来说,我们需要对其进行特征表示。通俗点来说就是要将其转换成一个向量的形式。那么我们如何将一个句子或者一个词语转化成向量呢,这就是我们今天所要学习的内容——词向量,当我们得到词向量后,我们就可以对一个句子进行特征工程从而得到句子的特征表示。静态词向量static embedding独热编码独热编码是最古老的一种词向量的编码形式,简单来说就是一种0-1表示。对于某个单词,去词库里寻找这个单词所对应

2020-07-20 16:48:53 2405 3

原创 深入浅出语言模型(一)——语言模型及其有趣的应用
原力计划

引言词向量模型应该是任何一个NLP工程师都应该掌握的基础。还记得17年刚在实验室实习开始接触时,大家都一直在用word2vec。到了18年在公司实习时,实验大多基于glove模型。到了现在Bert大热,各种基于Bert的词向量模型层出不穷,在各个任务各显神威。最近由系统的学习了下词向量模型,发现其实每个词向量背后都蕴藏着很直观的思想或者很优美的数学推理,我相信对我们现在一些任务都会有启发。在这里记录一些自己的学习心得,如有不当之处,还望指教,多多交流。在这个(一)里主要记录的是一些词向量的远古模型。包括

2020-07-09 16:20:57 853

原创 Efficient Large-Scale Multi-Modal Classification 多模态学习论文阅读
原力计划

引言多模态问题我们应该不会陌生。Efficient Large-Scale Multi-Modal Classification(AAAI2018)摘要早期的互联网主要是基于文本的,但现代数字世界正变得越来越多模式。这里,我们研究多模态分类,其中一个模态是离散的,例如文本;而另一个是连续的,例如从卷积神经网络传输的视觉表示。我们关注的场景是,我们必须能够快速地对大量数据进行分类。研究了实现多模态融合的各种方法,并分析了它们在分类精度和计算效率方面的优缺点。我们的研究结果表明,即使使用简单的融合方法,

2020-07-02 09:50:10 365

原创 Pytorch下如何使用Tensorboard

引言如何使用TensorboardTensorboard添加scalarTensorboard添加graphTensorboard的一些坑

2020-05-19 23:13:12 102

原创 神经网络如何调参,自己的一些心得和实战经验

引言神经网络的调参十分重要,很多人都说深度学习是一个黑箱模型,有人戏称深度学习为“炼丹”。但是深度学习归根结底是一个数学优化的过程,超参数对于模型的效果影响很大。网上文章也有很多,比如梯度爆炸应该怎么办,学习率怎么调整,选什么样的优化器等等。下面我就说一下自己的一些心得以及借鉴的别人的一些想法。学习率的调整为了训练神经网络,其中一个需要设置的关键超参数是学习率。提醒一下,为了最小化此网络的损失函数,这个参数缩放了权重更新的幅度。如果你把学习率设置太低,训练会进展的很慢:因为你在网络的权重上只做了很少的

2020-05-18 20:20:02 272

原创 深度学习写代码时的一些好习惯,如何高效的炼丹

引言当我们开始着手一个工程或者一个项目时,总是很着急的想去开始写代码,但是我们做工程需要有一个良好的习惯,这样不仅写代码顺利,心情也会跟着变得好起来。所以我们应该养成一个良好的写代码的习惯,下面说一下通过我自己的经历和查阅资料所得到的经验。1. 形成良好的工程化习惯1.1自己要习惯生成一个参数配置文件我一开始也是将所有的超参数还有网络的设计配置,激活函数的选择等等。我们可以单独弄一个文件config.py,这样我们每次更改超参数只是需要更改设置文件就可以了,不需要进入工程里繁琐的修改,这是我的一个c

2020-05-18 16:58:23 118

原创 【Leetcode】两数之和 two sum (哈希表)

题目给定一个整数数组 nums 和一个目标值 target,请你在该数组中找出和为目标值的那 两个 整数,并返回他们的数组下标。你可以假设每种输入只会对应一个答案。但是,数组中同一个元素不能使用两遍。题解解法一这个问题其实很简单,两个循环遍历就可以解决这个问题,即暴力解决。class Solution {public: vector<int>twoSum(vector<int>& nums, int target) { int len=

2020-05-17 07:30:22 74

原创 【频域深度学习】Learning in the Frequency Domain
原力计划

引言我们应该都学习过信号与系统,知道信号可以分为时域、空间域以及频域等等。显然一般的深度学习方法,以图像为例,模型的输入为图像本身,属于空间域信息,那么我们是否可以利用频域信息来进行图像处理呢?转换为频域最常见的是通过傅里叶变换从时域或者空间域转换到频域。傅里叶变换将信号信息转换成每个成分频率上的幅度和相位。第一篇用CNN在频域(DCT系数)而不是空域(RGB)上直接学习的文章是On using CNN with DCT based Image Data,这篇文章在图像分类任务上做的实验,包括MNIS

2020-05-14 16:37:54 782 2

空空如也

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除