- 博客(10)
- 资源 (4)
- 收藏
- 关注
转载 Reading Comprehension必读paper汇总
文章目录Must-read papers on Machine Reading Comprehension.Model ArchitectureUtilizing Extenal KnolwedgeExplorationOpen Domain Question AnsweringDatasets文章转自thunlp/RCPapersMust-read papers on Machine R...
2019-02-22 11:32:17 4398
原创 capsule系列之Dynamic Routing Between Capsules
文章目录1.背景2.什么是capsule3.capsule原理和结构4.CapsNet模型介绍5.源码解析6.实验结果7.capsule相关论文参考文献capsule在出现之后就除了Hinton老爷子的两个版本之外,还有例如Investigating Capsule Networks with Dynamic Routing for Text Classification这样的新作,可见cap...
2019-02-26 22:38:23 3366
原创 QANet: Combining Local Convolution With Global Self-Attention For Reading Comprehension
文章目录1.概述2.模型结构2.1.Input embedding layer2.2 Embedding Encoder Layer2.3.Context-Query Attention Layer2.4.Model Encoder Layer2.5 Output layer3.数据增强4.源码及训练参考文献博主标记版paper下载地址:zsweet github关于paper,在进入正题之...
2019-02-25 16:15:32 1352
原创 paper:Hierarchical Attention Networks for Document Classification
又是一篇很久之前用到的模型,今天回来整理,发现分类的模型都好简单啊,然后看到模型基于GRU,总觉得有点不想看,因为带时间序列的训练起来太慢了,最进没怎么关注分类的新模型,不过我觉得CNN和transformer结构(self attention)的搭配应该是分类问题的趋势,不过这篇文章后面的attention效果可视化还是不错的~文章目录1.模型概述2.模型详情2.1.Word Encode...
2019-02-24 15:17:27 866
原创 Bi-Direction attention flow for machine reading(原理篇)
首先,我们的关注层不用于将上下文段落总结为固定大小的向量。而是针对每个时间步计算注意力,并且每个时间步的注意向量以及来自前一层的表示都被允许流向后续建模层。这减少了由早期汇总造成的信息损失。 其次,我们使用无记忆的注意机制。也就是说,虽然我们像Bahdanauet al一样迭代计算时间的注意力。 (2015),每个时间步的注意力只是当前时间步的查询和上下文段的函数,并不直接取决于前一时间步的注意...
2019-02-21 15:37:53 1629 4
原创 Highway Networks
文章目录1.前言2.highway network实验结果对比resnet参考资料1.前言目前的神经网络普遍采用反向传播(BP算法)方法来计算梯度并更新w和b参数(其实就是导数的链式法则,就是有很多乘法会连接在一起),由于深层网络中层数很多,如果每层都使用类似sigmoid这样的函数,它们的导数都小于1,这样在反向传播中可能会导致最初几层的w和b参数更新的幅度非常小或者几乎不更新,也就是我们...
2019-02-20 11:10:44 1832
原创 machine comprehension using match-lstm and answer pointer
又是一篇之前读的paper,最近把之前读的paper整理整理…文章目录前言1.模型概述2.LSTM preprocessing Layer3.match-LSTM4.Answer Pointer Layer4.1.Sequence Model今天的主角又是在斯坦福的SQuAD的基础上,虽然是一篇比较早的文章,但是该文章是第一个在SQuAD上实现的端到端的神经网络(end-end),对于入门...
2019-02-18 18:46:27 615
原创 tensorflow之dropout
参考文章深度学习中Dropout原理解析 墙裂推荐理解dropout深度学习(二十二)Dropout浅层理解与实现tensorflow1.6 的实现代码:def dropout(x, keep_prob, noise_shape=None, seed=None, name=None): # pylint: disable=invalid-name ""&a
2019-02-13 15:30:47 1221
原创 tensorflow之debug和可视化
文章目录1.实用小技巧之InteractiveSession2.logging日志3.tensorboard(summary)3.1.tensorboard 概述3.2.graph3.3.scalar用法2.3.distributions & histogram2.3.1.distributions2.3.2.HISTOGRAMS2.3.2.示例代码2.4.tensorboard 小结参...
2019-02-12 21:08:47 2050
原创 tensorflow 填坑笔记(持续更新~)
global_step全局stepglobal_step在滑动平均、优化器、指数衰减学习率等方面都有用到,这个变量的实际意义非常好理解:代表全局步数,比如在多少步该进行什么操作,现在神经网络训练到多少轮等等,类似于一个钟表。global_step经常在滑动平均,学习速率变化的时候需要用到,这个参数在tf.train.GradientDescentOptimizer(learning_rate)...
2019-02-11 12:28:21 654 4
Redis-x64-3.2.100.msi
2017-10-14
坦克大战游戏,支持声音,配置等
2015-03-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人