自然语言处理
文章平均质量分 95
wendaJ
AI产研大佬
展开
-
QA(二):利用Attention机制,带着问题阅读
MACHINE COMPREHENSION USING MATCH-LSTM AND ANSWER POINTER摘要本文介绍一种结合 math-LSTM 和Pointer Net利用end-end的来解决QA问题的方式模型最主要的还是 match-LSTM:有两个句子,一个是前提,另外一个是假设,match-LSTM序列化的经过假设的每一个词,然后预测前提是否继承自假设。简单的说:带着问题去阅读原翻译 2017-12-05 21:04:32 · 2564 阅读 · 0 评论 -
QA: Dynamic Memory Networks for Natural Language Processing
摘要我们提出一种动态内存网络(DMN)的方式,来解决,输入多个描述句子和问题来生成答案的这种场景。简介Question answering (QA):根据上下文(文本,图片等),结合问题(question), 来生成答案 dynamic memory network (DMN):它是一种网络结构,处理的是(context_input-querstion-answer)这样的三元组。 inputs翻译 2017-12-01 14:57:49 · 615 阅读 · 0 评论 -
QA(三): 复杂attention机制(coattention及bi-attention)
DCN-动态共同attention网络两种模型都是类似的,不像前一篇文章介绍的soft attention机制,只是考虑query到context的attention这里两篇论文都会考虑 query 到 context 和 context到query的attention 然后得到的attention回和原始的encoder向量进行作用,得到修正后的query和context的修正矩阵然后这些修原创 2017-12-17 16:04:02 · 19150 阅读 · 0 评论 -
Training RNNs as Fast as CNNs
摘要RNN的并行性比较差,主要因为它在计算state的时候不能并行,比如要计算输出h(t),它必须依赖于前一步的输出h(t-1),这个是并行化的瓶颈。 在这篇论文提出一种可选择的RNN结构,它的递归单元可以和卷积层一样快,是cud优化的LSTM的5-10倍。翻译 2017-11-25 14:38:29 · 595 阅读 · 1 评论 -
Attention Is All You Need
一种只基于attention机制的机器翻译翻译 2017-11-25 14:55:04 · 3727 阅读 · 0 评论 -
Word Vector的综述
历史词向量大致经过3个时期:最早在做检索系统,或者推荐系统时候,需要计算query和文档,或者user和文档之间的相关性,涉及到相关性,很直观的利用到了向量的欧式距离活着余弦距离。所以这个时期的向量化主要是基于整体数据的矩阵分解,使用的是整体数据的global信息。词向量的是一个主题回归的过程,相同主题的词的向量彼此就比较接近。分布式语义的表示,使用机器学习的方式,然后选择合适的学习原创 2018-01-14 21:36:51 · 6489 阅读 · 0 评论 -
Image captioning-数据格式
规划:整体内容是四块:首先是训练和评估数据,我们选择的是微软COCO图片数据数据,后面简单会介绍数据的格式,处理方式整体topic的主线是沿着show and tell的发展介绍各种attention以及其他encoder机制的加成evaluation方式及探讨应用说明代码使用tensorflow,最好升级到1.4,历史版本有很多算子是不支持GPU运算的。有些基础原创 2017-12-01 17:47:59 · 2231 阅读 · 1 评论 -
Image captioning(二)- CNN + ATTENTION
技术上来说往粗了讲,大家听到的是:RNN,CNN,ATTENTION,Embedding 比较有名的名词。往细了讲:卷积,max/min/avg pooling, self-attention, gated-weight,sigmod weight,softmax weight等这些具体的技术细节可能在你构建graph的时候都会或多或少的使用,万变不离其宗,熟悉使用这些东西,后面在遇到各种原创 2017-12-01 17:56:24 · 2820 阅读 · 0 评论 -
Image captioning(三)-WITH ATTENTION
摘要背景我们已经介绍了,现在我们上篇文章的基础上面引入比较流行的Attention机制 说下本篇文章的贡献:image captioning中使用同一种框架引入两种atttention机制。可以洞察模型观察的点在哪里where, 以及观察的是什么what代码我只会演示第二种attention 机制模型image encoder 第一层还是卷积层来处理图像信息,但是原创 2017-12-01 18:07:50 · 2288 阅读 · 2 评论