2018年10月_sliderSun

12月 10月

翻译深度学习优化器总结

Batch gradient descent每次更新我们需要计算整个数据集的梯度，因此使用批量梯度下降进行优化时，计算速度很慢，而且对于不适合内存计算的数据将会非常棘手。批量梯度下降算法不允许我们实时更新模型。但是批量梯度下降算法能确保收敛到凸平面的全局最优和非凸平面的局部最优。SGD(Stochastic gradient descent)随机梯度下降算法参...

2018-10-19 10:13:15 660

1：优化器。机器学习训练的目的在于更新参数，优化目标函数，常见优化器有SGD，Adagrad，Adadelta，Adam，Adamax，Nadam。其中SGD和Adam优化器是最为常用的两种优化器，SGD根据每个batch的数据计算一次局部的估计，最小化代价函数。学习速率决定了每次步进的大小，因此我们需要选择一个合适的学习速率进行调优。学习速率太大会导致不收敛，速率太小收敛速度慢。因此SGD通常训...

2018-10-19 10:12:55 230

转载基于Attention机制的上下文分类算法在问答系统中的应用

文本分类是自然语言处理中的基础算法，在对话系统的应用中，可利用文本分类算法来判断用户的咨询意图。然而单个问题并不能很好捕获用户的意图，通常需要结合用户上文的咨询结合当句才能更好的判断用户的意图。这里就需要我们建立一个基于上下文的分类模型来结合上文信息判断用户的最终意图。这里常用的方式大概分为两个方式：&nbsp; &nbsp; &nbsp; &nbs...

2018-10-19 10:12:25 1131

转载 Inner Attention模型在深度问答系统中的应用

Attention机制在时序模型中的应用，已经被证明能够提升模型的性能。本文参考《Attentive pooling Networks》，该论文以时序模型输出状态设计Attention为基线（QA_LSTM_ATTENTION），提出了一种同时对问题和答案进行特征加权的Attention设计方案。本文实现了论文中基于LSTM网络结构的Attentio...

2018-10-19 10:12:10 478

转载 java《部署tensorflow训练的模型》

最近深度学习算法被广泛研究和应用，而tensorflow则是被应用最为广泛的工具。tensorflow训练的模型被应用在线上时，主要有3种方式（本文主要讨论java方向的应用）：1:java代码重写预测代码（应用效率太低）2:tensorflow serving加载tensorflow模型，通过rpc服务调用，改种方式耗时较长，不满足线上要求（之前测试的结果）3:tens...

2018-10-19 10:11:51 2303

转载深度学习trick集合

调参技巧数据增强预处理1️⃣zero-center[9]将数据中心化初始化1️⃣Xavier initialization[7]方法适用[9]于普通激活函数(tanh,sigmoid)：scale = np.sqrt(3/n)2️⃣He initialization[8]方法适用[9]于ReLU：scale = np.sqrt(6/n)3️⃣Batch normalization[10]4️...

2018-10-18 15:24:38 859

转载 Mask矩阵理解

是什么mask矩阵是什么？是一个由0和1组成的矩阵。一个例子是，在自然语言处理(NLP)中，句子的长度是不等长的，但因为我们经常将句子组成mini-batch用以训练，因此那些长度较短的句子都会在句尾进行填充0，也即padding的操作。一个mask矩阵即用以指示哪些是真正的数据，哪些是padding。如：图片来源：Theano：LSTM源码解析其中mask矩阵中1代表真实数据；0代表padd...

2018-10-18 15:21:39 10849 2

翻译如何理解bias&variance

如何理解bias&variancebias是function space中心离optimal model的差距，variance是某次实验所得模型离function space中心的距离。比如说，简单地模型的function space小，随机性小，因此variance小，但也因为function space小，表示能力有限，因此bias大。如图：该图中蓝色圈代表模型所能表达的范围。...

2018-10-18 15:16:50 703

转载 Deep Learning For NLP BestPrac

转载博客地址：http://ruder.io/deep-learning-nlp-best-practices/index.html Update July 26, 2017: For additional context, the HackerNews discussion about this post.Table of contents:IntroductionBes...

2018-10-18 15:13:23 299

转载 CNN文本分类

做法基本上目前较为浅层的CNN文本分类的做法都是如下图：将词向量堆积成为二维的矩阵，通过CNN的卷积单元对矩阵进行卷积处理，同时使用pooling（通常是1max-pooling）操作，将不等长的卷积结果变为等长，对不同的卷积单元的结果进行拼接后生成单个向量，最后再通过线性层转化成类别概率分布。另一张图也说明了该流程。建议与指导超参及其对结果的影响接下来的内容参考了论文A Sensiti...

2018-10-18 15:07:18 1697

转载 ELMo词向量用于中文

&amp;lt;p&amp;gt;10.10更新：ELMo已经由哈工大组用PyTorch重写了，并且提供了中文的预训练好的language model，可以直接使用。&amp;lt;/p&amp;gt;ELMo于今年二月由AllenNLP提出，与word2vec或GloVe不同的是其动态词向量的思想，其本质即通过训练language model，对于一句话进入到language model获得不同的词向量。根据实...

2018-10-18 14:56:24 2585 2

转载 ELMo词向量用于中文

ELMo于今年二月由AllenNLP提出，与word2vec或GloVe不同的是其动态词向量的思想，其本质即通过训练language model，对于一句话进入到language model获得不同的词向量。根据实验可得，使用了Elmo词向量之后，许多NLP任务都有了大幅的提高。论文:Deep contextualized word representationsAllenNLP一共releas...

2018-10-18 14:40:07 8859 20

转载 Elmo词向量中文训练过程杂记

转载自“素质云博客”， https://blog.csdn.net/sinat_26917383/article/details/81913790 1 elmo是什么？ELMo的特点：2 Elmo训练有哪些好项目？有训练过程的项目预训练模型...

2018-10-18 14:32:28 4226 2

转载词向量技术-从word2vec到Glove到ELMo

词向量word2vec VS ELMo本文关键词：NLP、词向量、word2vec、ELMo、语言模型0. 前言"词和句子的嵌入已成为所有基于深度学习的自然语言处理（NLP）系统的重要组成部分，它们在固定长度的稠密向量中编码单词和句子，以大幅度提高神经网络处理文本数据的能力。"大趋势是对通用嵌入的追求：在大型语料库上预训练好的嵌...

2018-10-18 14:29:06 3381 1

原创训练GloVe中文词向量

准备语料准备好自己的语料，保存为txt，每行一个句子或一段话，注意要分好词。准备源码从GitHub下载代码，https://github.com/stanfordnlp/GloVe将语料corpus.txt放入到Glove的主文件夹下。修改bash打开demo.sh，修改相应的内容因为demo默认是下载网上的语料来训练的，因此如果要训练自己的语料，需要注释掉修改参数设置，将CORP...

2018-10-18 14:09:04 15060 3