深度学习
Hackerzer
这个作者很懒,什么都没留下…
展开
-
超限学习机--ELN 读书笔记一
G.-B. Huang, Q.-Y. Zhu and C.-K. Siew, “Extreme Learning Machine: Theory and Applications”, Neurocomputing, vol. 70, pp. 489-501, 2006.SLFN :单隐层前馈神经网络SLFN 应该是含有隐层节点中最简单地神经网络了。以SLFN为例,传统的神经网络训练方法:初始化参原创 2015-12-10 12:38:31 · 4131 阅读 · 0 评论 -
【AlphaGo】【论文阅读】
前后花了十个小时阅读这篇论文。写得不正确的地方还请指教。论文题目: Mastering the Game of Go with Deep Neural Networks and Tree Search发表在 Nature, 2016, 上作者 : (deepmind) 首先整理一下这篇文章的主要方法:网络架构采用了Pipeline的形式。原创 2017-06-04 12:16:48 · 2842 阅读 · 0 评论 -
【论文阅读】Attention Is All You Need
昨天刚学习了在 RNN encode-decode编解码框架上的进行Attention的工作,今天就看到了这篇,只有Attention是你需要的,RNN 序列串的建模根本不是重要的。好,开始读论文。 Ashish Vaswani等 Google Brain,作者单位中还有多伦多大学的,六位作者都是一作?哈。摘要:当前主流的序列建模是在复杂的RNN与CNN的框架之上的,(值得注意的是这篇文章把CN原创 2017-06-14 12:01:52 · 6761 阅读 · 0 评论 -
LSTM 与 GRU
LSTM 示意图如下,来自 LSTM 非常出名的博客 : http://colah.github.io/posts/2015-08-Understanding-LSTMs/首先标准的LSTMforgot gate:input gate cell stateoutput gateLSTM 常用的一种变体--GRU input gate、f原创 2017-06-15 15:01:31 · 474 阅读 · 0 评论 -
【论文阅读】Neural Machine Translation By Jointly Learning To Align and Translate
Neural Machine Translation By Jointly Learning To Align and Translate二作与三作 Universite de Montreal 鼎鼎有名的蒙特利尔大学,最后一位 Yoshua Bengio. 该文章的引用量: 1478这篇文章在神经网络 采用编码-解码RNN 做端到端的机器翻译的基础上,使得模型可以在预测下一个词的时候,自动地原创 2017-06-13 22:55:19 · 14861 阅读 · 4 评论 -
【论文阅读】Generating Natural Answers by Incorporating Copying and Retrieving Mechanisms in Sequence-to-S
采用拷贝与检索机制在序列预测的模型中生成自然语言的问题答案为了生成自然语言答案,现有的方法通常利用一些了的NLP tools与归纳模板,这种方式覆盖度低,难以应对丰富的语言现象,文章将问答看做端到端的学习问题,在应对问答时,通过分析问题、在知识库中检索来生成连贯的正确地答案。在解码阶段,不同于机器翻译,预测词并非都来自设定好的词表,而是分别来自词表、问题本身以及知识库,通过在网络中结合问句与知识库的原创 2017-07-08 21:33:50 · 2132 阅读 · 0 评论 -
【论文阅读】A Neural Conversational Model
这是google放在arvix上的一篇论文,写得是非常轻松随意,模型也很简洁,结果自称Modest。对话只做到了一问一答,没有做到多轮,采用了两层LSTM进行建模,4096 cells大小,100K words, 到输出层的时候将4096 cells投影到2048 units。(OpenSubtitles dataset 上的配置,在另外一个小数据集上,cell的大小会变得小一点)模型: 在推理时原创 2017-07-09 10:21:43 · 1953 阅读 · 0 评论 -
【论文阅读】Sequential Matching Network: A New Architecture for Multi-turn Response Selection in Retrieval
2017ACL 论文 作者有来自MSRA的 chatbot 中利用到多轮对话中上下文信息,答案是检索得到的,文章重点在讲如何对多轮对话上下文信息进行建模,答案候选抽取不是重点。一个示例,比如在下图中两个候选中选哪个?显然应该是候选1,有上下文信息。 模型架构 实现结果 语料: 1. Ubuntu Corpus[1] 2. Douban Conversation Corpus文章的语料与原创 2017-07-09 11:48:07 · 3391 阅读 · 0 评论 -
fasttext 相关笔记
两篇不错的论文解读博客http://www.algorithmdog.com/fast-fasttexthttps://heleifz.github.io/14732610572844.htmlgithub 传送门:https://github.com/facebookresearch/fastText原创 2017-07-19 21:52:32 · 326 阅读 · 0 评论 -
【论文阅读】Addressing the RareWord Problem in NeuralMachine Translation
论文作者:Minh Tang Luon (Stanford University) Iiya Sutskever (Google) Quoc V.Le (Google) Orial Vinyals (Google) Wojciech Zaremba (New York Univerity) 这篇论文一看就感觉是一个很好的研究工作,对一个很具体又很重要的问题展开。摘要文章的方法是在经过对齐算原创 2017-06-19 18:40:13 · 1134 阅读 · 0 评论 -
【论文阅读】 计算语言学与深度学习
计算语言学与深度学习 作者是语言学家: 克里斯托弗·D·曼宁 (Christopher D.Manning)有时候文章读后不写点笔记感觉跟没读一样,所以以后读完论文以后觉得有收获的点都记下来吧。深度学习与机器学习大牛们的观点:Yann LeCun : 深度学习的下一个重要目标是自然语言的理解,这将让机器不只具有理解单个字词的能力,还将具备理解句子与段落的能力。原创 2017-05-10 12:03:48 · 1268 阅读 · 0 评论 -
疑问
ELM 解决分类问题泛化性能较差? 第一幅图左边如训练数据,右边为测试数据。原创 2016-01-01 16:00:14 · 386 阅读 · 0 评论 -
谱聚类:Ng算法
文章: On Spectral Clustering: Analysis and an algorithm作者: Andrew Y. Ng 在算法第二步并没有讲清楚,矩阵A是表示的是各点之间的亲和值?我按照这个算法写了后对于半月形的数据集无法得出好的结果,在参考其他人的资料后,才意识到中途有一个图构造的过程,即取与点xi最邻近的k个点,只保留这一部分信息,来计算原创 2015-12-26 20:55:12 · 2901 阅读 · 0 评论 -
增强学习:学习笔记整理
链接 : 增强学习译文强烈推荐Tom Mitchell的《机器学习》最后一章,里面介绍了Q学习和更多的内容。最后,里面提到了Bellman等式,在《算法导论》中有Bellman-Ford的动态规划算法,可以用来求解带负权重的图的最短路径,里面最值得探讨的是收敛性的证明,非常有价值。原创 2016-08-15 21:24:23 · 646 阅读 · 0 评论 -
论文:Distilling the Knowledge in a Neural Network
作者:Geoffrey Hitton;Orial Vinyals;Jeff Dean看得不是很懂,先留个坑,说个大意。标题就很好地解释了这篇论文是来干嘛的,重点是Distill,萃取,针对的是Neural Network,但是在文章的前2/3并没有看到怎么是面向Neual Network的,整个标题:如何从Neural Network中萃取知识?先只说说我看的前面2/3的部原创 2016-08-01 21:08:20 · 5478 阅读 · 1 评论 -
hybrid computing using a neural network with dynamic external memory 论文阅读
共同一作: Alex Graves1*, Greg Wayne1*DNC 早期版本: neural Turing machine比较: 内存访问方法上有限制(limited)a DNC uses differentiable attention mechanisms to define distributions over the N rows, or ‘loc原创 2017-02-26 10:42:43 · 758 阅读 · 0 评论 -
Probabilistic Frame-Semantic Parsing 论文阅读
Frame Identification :所用特征:原创 2017-02-26 21:28:50 · 735 阅读 · 0 评论 -
Language Model 论文阅读笔记
最好的五一? 看了三天论文。因为毕竟是劳动节,那我写一写劳动心得吧。 首先解释一下什么叫作语言模型,简单地讲就是计算文字序列的联合概率,即如这个公式进行表示: 先验分布好进行计算,按照n-gram的算法难以有效地表示语言模型,因为没有generality,忽视了语言语义的相似度,采用分布式表示所建立的语言模型往往更好。 1. Beng原创 2017-05-02 00:22:03 · 837 阅读 · 0 评论 -
Tensorflow 学习笔记
先记下已有的一些疑惑,待一个个解决吧:1. 如下,为什么loss 需要显示地加在 summary里面? 如果没有 tf.summary.scalar 这句,在生成的graph 里面没有 model/loss 这个operation self.loss = tf.add_n(losses) / len(losses) # total loss tf.summary原创 2017-05-04 16:00:48 · 429 阅读 · 0 评论 -
MAP 与 MRR
看论文时,发现对于wikiqa的评价指标常设为MAP、MRR这些Rank排序的指标,不是很理解,看了下面这篇博客有些理解了http://blog.csdn.net/lightty/article/details/47079017 在MAP中,四个文档和query要么相关,要么不相关,也就是相关度非0即1。MAP(Mean Average Precision):单个主题的平均准确率是每篇相关文档检索...原创 2018-03-20 22:23:24 · 14219 阅读 · 0 评论