深度学习
Vico_Men
这个作者很懒,什么都没留下…
展开
-
深度学习第二课 改善深层神经网络:超参数调试、正则化以及优化 第一周正则化 笔记和作业
正则化通常而言,深度学习的Regularization 方法包括: 1. L2正则化 2. Dropout 3. Data Augmentation 4. Early stoppingL2 正则化“Weight decay” L2正则为什么会有效果,为什么会regularization? 1. 当λ\lambda变大时,w[L]w^{[L]}变小,相当于很原创 2018-01-05 16:13:35 · 907 阅读 · 0 评论 -
深度学习优化算法总结
本文基于目前深度学习中使用较多的优化学习算法进行总结。1 深度学习中的优化算法 优化算法之前讨论两个问题: (1) 局部最小值问题 在深度学习中,最优化问题其实并不容易困在局部最小值点。在高维度空间时(如20000维),局部最小值点需要在所有维度上都取得最小值,概率为2−200002−200002^{-20000},相反更容易困在鞍点处。 同时平稳端(plate...原创 2018-03-13 09:23:47 · 6328 阅读 · 0 评论 -
从Machine Translation 到Sequence to Sequence(Seq2seq)、Attention、Pointer Network(prt network)
本文基于cs224n课程的Machine Translation部分和Michael Collins NLP的Machine Translation部分。从Tranditional MT介绍到SMT(statistical Machine Translation),再到Sequence to Sequence 、Attention,并结合其中的几篇经典论文阐释,同时考虑到15年Google B...原创 2018-03-05 12:52:56 · 2240 阅读 · 0 评论 -
浅析文本相似度
在自然语言处理(Natural Language Processing, NLP)中,经常会涉及到如何度量两个文本的相似度问题。在诸如对话系统(Dialog system)和信息检索(Information retrieval)等的问题中,如何度量句子或者短语之间的相似度尤为重要。为方便对知识的梳理,写下这篇博客对部分传统方法、词向量、深度学习方法进行总结,遗漏之处还请大家补充。 度量文...原创 2018-03-17 22:12:29 · 40577 阅读 · 4 评论 -
理解RNN、LSTM、GRU和Gradient Vanishing
最近在学习cs224n: Natural Language Processing with Deep Learning课程时,对RNN、LSTM和GRU的原理有了更深一层的理解,对LSTM和GRU如何解决RNN中梯度消失(Gradient Vanishing)的问题也有了新的认识,于是写下本文。RNNGradient Vanishing减缓梯度消失防止梯度爆炸GRUL...原创 2018-03-02 15:02:04 · 11896 阅读 · 0 评论 -
NLP底层技术之语言模型
本文结合cs224n:Natural Language Processing with Deep Learning的Lecture 8、Lecture 9内容,从语言模型(Language Model)讲到N-Gram LM(N-Gram Language Model)再到RNN-LM(RNN-Language Model)。Language Model N-Gram Lang...原创 2018-03-01 20:46:04 · 2085 阅读 · 0 评论 -
基于Keras的LSTM多变量时间序列预测
本文翻译自Jason Brownlee的博客Multivariate Time Series Forecasting with LSTMs in Keras 传统的线性模型难以解决多变量或多输入问题,而神经网络如LSTM则擅长于处理多个变量的问题,该特性使其有助于解决时间序列预测问题。 在接下来的这篇博客中,你将学会如何利用深度学习库Keras搭建LSTM模型来处理多个变量的时...翻译 2018-01-12 17:48:51 · 110065 阅读 · 117 评论 -
深度学习相关总结
博客来源于本人在深度学习中的知识点总结,基于本人学习进度不定期更新。1、为什么相比于RNN,LSTM在梯度消失上表现更好?Reference: 1. http://blog.csdn.net/a635661820/article/details/45390671 2. http://blog.csdn.net/dark_scope/article/details/4705636原创 2018-01-14 12:17:12 · 1736 阅读 · 0 评论 -
NLP底层技术之句法分析
句法分析是自然语言处理(natural language processing, NLP)中的关键底层技术之一,其基本任务是确定句子的句法结构或者句子中词汇之间的依存关系。 句法分析分为句法结构分析(syntactic structure parsing)和依存关系分析(dependency parsing)。以获取整个句子的句法结构或者完全短语结构为目的的句法分析,被称为成分结构分析(co原创 2018-01-28 16:54:18 · 39241 阅读 · 3 评论 -
深度学习第三课 结构化机器学习项目 第二周机器学习策略(二) 笔记和作业
误差分析 观察错误标记的例子,统计数量,并归纳出产生误差的类型,针对不同类型的问题和优先级进行分别处理。 Incorrectly labeled examples. DL algorithm are quite robust to random errors in the training set. 深度学习对于训练集中随机误差具有较好的鲁棒性,但是不包括系统性的错误等。原创 2018-01-08 11:41:10 · 791 阅读 · 0 评论 -
深度学习第三课 结构化机器学习项目 第一周机器学习策略(一) 笔记和作业
ML的策略Example:搭建一个神经网络结构有很多可选择的ideas如何判断哪些ideas真的能起到效果 判断系统性能 优化指标 大数据时代,测试集可以划分为更小的集合 验证集和测试集的分布应该保持一致,因为在验证集上选取模型放在实际的应用上,需要在之间保持相关性,相反训练集和测试集之间存在分布不同并不是多大的问题,在一些情况下,对于数据集的划分,可以参考下图:原创 2018-01-08 11:32:08 · 562 阅读 · 0 评论 -
深度学习第二课 改善深层神经网络:超参数调试、正则化以及优化 第三周超参数调试+Batch normalization笔记和作业
超参数调试处理策略超参数搜索的策略 1. 随机取值。 网格搜索的问题在于:无法预先判断哪个参数是比较重要的,因此将浪费大量的运算在没有明细作用的变量上。 2. 精确搜索 为超参数选取合适的范围 对于如神经网络隐藏层数这类超参数可以采用平均取值,但是对于类似学习率和指数加权平均中的超参数β\beta 这类超参数需要采用对数平均取值。 如对学习率取值时,学习率的原创 2018-01-05 17:18:06 · 1613 阅读 · 0 评论 -
深度学习第二课 改善深层神经网络:超参数调试、正则化以及优化 第二周Mini_batch+优化算法 笔记和作业
Mini-batch 当采用mini-batch时,cost function持续减小,但是cost function减小的并不完全平坦,因为每个batch可能带来不同的下降方向和大小。 当batch size 减小为1时,退化为SGD,此时将会丢失向量化处理的优势; 当batch size增大到m时,此时为batch gradient descent,此时每次循环将会需要很原创 2018-01-05 16:47:44 · 1098 阅读 · 0 评论 -
人机对话系统调研
随着人工智能的发展,人机对话系统在智能家居、智能助理等领域得到长足的发展。从前年开始,大量的智能音箱(天猫精灵,小米智能音箱等)开始出现在To C端,很多互联网公司将其视作新的入口不断布局,而在To B端,阿里小蜜、网易七鱼、微软的AI Solution等系统也在不断迭代完善。特别是近年来随着深度学习技术、自然语言处理技术和人工构造的知识库规模的提升,对话系统涌现出大量的研究成果和方法,本篇博...原创 2018-04-08 17:24:03 · 7263 阅读 · 0 评论