Synchronous Bidirectional Inference for Neural Sequence Generation

abstract: 目前seq2seq任务大多是从左到右一个词一个词生成的 神经网络的方法,比如LSTM或者self-attention,可以充分利用历史信息,但是不能利用未来信息(future information),从而导致结果的不平衡(左边由于右边) 本文提出一种同步双向推理模型: ...

2019-06-13 18:55:54

阅读数 3

评论数 0

神经网络的小笔记

1.epoch和batch的区别 a.epoch是指模型的迭代次数,每一个epoch是模型的一次迭代,使用整个数据集迭代一次 b.batch发生在一次epoch中,指的是每次参数更新仅使用batch_size个训练样本。一次epoch需要进行batch_num次,每次用batch_size个样...

2019-03-07 17:37:51

阅读数 15

评论数 0

BERT模型

1、背景 语言模型的与训练在自然语言处理的任务中有着重要的作用。 1.1 自然语言处理的任务 a.句子层面(sentence-level)=>判断句子之间的关系 自然语言推理(natural language inference) 自然语言改写(natural la...

2018-11-29 18:19:57

阅读数 4285

评论数 0

aiml使用记录

1.使用场景  适用于简单对话,并且问题具有较大相似性。目前用于专业问题的回答,所以大多是单轮对话,即问题-答案(略显智障)。 2.常用tag     aiml是一个html标签类型的文档,其中最常用的标签有<pattern>和&l...

2018-09-06 17:16:11

阅读数 458

评论数 1

Attention机制的小理解

1.传统的encode-decode模型      输入序列:      输出序列:      中间语义变量     所以对于,也就是                这就表明输入序列的每一个元素对于输出序列的每一个元素的作用是等价的,这显然是不合理的。比如机器翻译中,中文“我爱你”...

2018-08-31 18:48:51

阅读数 4773

评论数 0

Attention Is All You Need

摘要     目前的序列转化模型都是基于编码器-解码器的复杂CNN和RNN。目前最好的模型就是将编码器与解码器利用注意力机制(attention mechanism)连接起来。本文提出一种简单的模型结构,遗弃了CNN和RNN,仅仅使用注意力机制。在两个机器翻译的任务上,本文模型在性能上比现有模型...

2018-08-31 15:33:45

阅读数 1062

评论数 0

Mapping Text to Knowledge Graph Entities using Multi-Sense LSTMs

方法     本文方法主要有两部分组成。(1)将知识图谱用带权重的文本特征进行拓展,然后利用随机游走生成集合序列输入到skipgram模型,从而生成KB空间。(2)将text转化为KB中的entity可以通过一个multi-sence监督模型(lstm+消歧机制),将每一个text生成一个KB空...

2018-08-29 16:29:55

阅读数 253

评论数 0

Effective Use of Word Order for Text Categorization with Convolutional Neural Networks

Effective Use of Word Order for Text Categorization with Convolutional Neural Networks 背景        CNN充分用于图像数据去探索图像的1D结构,本文作者将CNN用于文本数据,探索数据的1D结构(例如词...

2018-08-28 17:29:12

阅读数 67

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭