- 博客(17)
- 收藏
- 关注
原创 [EMNLP2015]Effective Approaches to Attention-based Neural Machine Translation
neural machine translation有以下优点: (1) 有能力生成很长的词序列 (2) 因为不需要存储巨大的短语词表,所以需要很小的内存 (3) 解码很容易 A: 介绍了两种attention模型,其共同点是在每一步decoding时hidden state ht_t都作为输入参与计算ct_t (1)global attention 在生成target word yt_
2017-08-16 14:34:25 2936 3
原创 [ACL2015]Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks
短语和句子的分布式表示model目前分为三类:(1) bag-of-words models: 不依赖与词序(2) sequence models :词序敏感 (3) tree-structured models:根据句法树构建句子表示与standard LSTM 相比, Tree-LSTM 有以下这行特性: (1)Tree-LSTM 可能依赖多个子节点 (2)forget gate 可能有多个
2017-08-15 17:58:40 1172
原创 [ACL2017]Enhanced LSTM for Natural Language Inference
网络的大体框架: 图左侧是sequential model, 右侧是 Tree-LSTM model 自下而上由三个部分组成: (1) input encoding (2) local inference modeling (3) inference composition 接下来针对每一部分给出详细解释: 第一部分:input encoding A: sequential mo
2017-08-15 15:25:41 2828
原创 [ICLR2017]A Structured Self-attentive Sentence Embedding
为了更好地表示句子的内在含义,本文提出了一种 self-attention mechanism , 可以从 r(超参数)个方面刻画句子的特性。不同于其他的使用attention的任务,本文只有一个input,对该句子进行 self-attention模型由两部分组成(1)bilstm , H 的矩阵大小是n*2u (
2017-08-14 22:21:41 1651
原创 [EMNLP2016]A Decomposable Attention Model for Natural Language Inference
自然语言推理:给出两句话,判断它们是entailed, contradicts还是neural
2017-08-14 14:49:59 2212
原创 On Using Very Large Target Vocabulary for Neural Machine Translation
neural machine translation的优点: (1)要求比较少的domain knowledge(比如说源语和目标语的特征) (2)joint tuned, 以往 phrase-based 系统是 tuned separately (3)要求少量的内存尽管存在很多优点,但是也不可避免第存在缺点: target words受限, 随着target words 数量的增加,模型的
2017-08-11 20:53:21 1423
原创 [ICLR2015]Neural Machine Translation by Jointly Learning to Align and Translate
我不是做机器翻译的,看机器翻译方面的文章是想了解attention文章,所以最近看的文章是机器翻译方面的 稍晚时候更新
2017-08-11 20:24:36 1819
原创 [ACL2016] Incorporating Copying Mechanism in Sequence-to-Sequence Learning
目前在自然语言处理的很多任务中,比如机器翻译、句法分析、自动文摘以及对话系统等领域,sequence-to-sequence 已经取得了瞩目的成就。简单说下sequence-to-sequence, 也称为seq2seq 由两个RNN组成:处理输入的编码器网络和生成输出的解码器网络. 所以也称之为encoder-decoder model. paper 提出了一种”copying mechanis
2017-08-10 17:57:10 2218
原创 [ACL2016]Pointing the Unknown Words
在很多NLP系统中,包括传统计数和深度学习模型中,稀疏词和未登录词的处理是一个很重要的问题,模型中用了两个softmaxt层用于预测条件语言模型中的next word, 其的生成有两种来源(1)原句子中的token(原句子指的是input sentence), (2)shortlist vocabulary(如果任务是机器翻译,shortlist vocabulary 是目标语言中部分词) sh
2017-08-09 14:39:43 1281 1
原创 tensorboard的一些问题
因为我的tensorflow 安装在python的虚拟环境中,所以进入虚拟环境输入命令: tensorboard –logdir=’logs/’ 后,提示tensorboard:command not found, 图片上的tensorbard是输入错误,改为tensorboard后依然是command not found, 懒得截图就还用这个吧 其实这个错误的原因不是tensorboard
2017-08-09 11:12:15 8472
原创 ImportError: libcusolver.so.8.0: cannot open shared object file: No such file or directory
在pycharm中一直出现这个错误,一个简单的涉及到tensorflow的程序都不能运行,实在烦恼,在网上反复也不能找到解决问题的答案,当然也有解决的方案,只是不能解决我的问题:下面详述问题和解决方案。 https://stackoverflow.com/questions/43558707/tensorflow-importerror-libcusolver-so-8-0-cannot-open
2017-08-08 17:45:21 24667 20
原创 深度学习中的一些概念
慢慢收集慢慢更: 1. zero-short learning: 就是用来解决识别我们的训练样本中从没就没有出现过的样本, https://www.zhihu.com/question/50996014
2017-08-07 15:46:25 416
原创 tf.GraphKeys
在http://www.cnblogs.com/linyuanzhou/p/6923607.html页面看到的一句话: 不太明白啥意思,先占坑, 待清楚后补充
2017-08-06 21:52:39 2278
原创 [ACL2017]Going out on a limb:Joint Extraction of Entity Mentions and Relations without Depende...
本文声称是第一个神经网络联合模型, 同时抽取实体,关系以及关系类型。在解析句子中每一个词时,同时输出实体标签和关系标签。 另外在特征部分只使用了word_embedding, 没有用POS和dependency tree等其他特征本文的网络架构是一个输入层,两个输出层(一个输出层用来输出实体标签,一个输出层用来输出关系标签) 在说明文中模型之前,先了解下entity label的形式,实体是由
2017-08-04 10:12:25 2462 3
原创 [NIPS2015]Pointer Networks
今年ACL上一篇联合抽取实体和关系的文章提到了pointer networks, 于是先大概了解下什么是pointer networks, 再回头看ACL上的那篇文章 pointer networks文中简称Ptr-Net, 是attention model 的一个变体,首先给出介绍比较详细的attention的文章,稍后讲解Ptr-Net http://blog.csdn.net/xbinwo
2017-08-03 10:09:12 10858 1
原创 python 中Counter的理解
Counter可以用来统计list中重复元素个数,返回dict, 例如一下代码中的A, key就是词,value就是词在list中出现的个数from collections import CounterlistExam = ['world','world','hello']ADict = Counter(listExam)print('---------------------ADict---
2017-08-02 09:32:46 3018
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人