深度学习
文章平均质量分 80
smartcat2010
这个作者很懒,什么都没留下…
展开
-
为什么深度比宽度重要
engio和LeCun等人的论文《Scaling learning algorithms towards AI》中提到,如果一个深层结构能够刚刚好解决问题,那么就不可能用一个更浅的同样紧凑的结构来解决,因此要解决复杂的问题,要么增加深度,要么增加宽度。但是神经网络一般来说不是越深越好,也不是越宽越好,并且由于计算量的限制或对于速度的需求,如何用更少的参数获得更好的准确率无疑是一个永恒的追求。而目前针对网络宽度的研究远远不如针对网络深度的研究多,我认为主要有两点原因:①提升同样效果需要增加的宽度远远超过需转载 2022-02-01 20:45:01 · 1398 阅读 · 0 评论 -
预训练模型综述
预训练模型综述摘要:近年来,预训练模型的出现将自然语言处理带入了一个新的时代。本文概述了面向自然语言处理领域的预训练模型技术。我们首先概述了预训练模型及其发展历史。并详细介绍自然语言处理领域的经典预训练模型,包括最经典的预训练模型技术和现在一系列新式的有启发意义的预训练模型。然后梳理了这些预训练模型在自然语言处理领域的优势和预训练模型的两种主流分类。最后,对预训练技术的未来发展趋势进行了展望。关键词:深度学习、自然语言处理、预训练模型1 引言在学术界,预训练语言模型(PLMs,Pre-tra转载 2022-01-24 08:28:30 · 1403 阅读 · 0 评论 -
Batch Normalization和Layer Normalization
atch Normalization 也是可以用的,但为什么不用,我们来分析一下问题。我们回到RNN,RNN其实也能够使用Batch Normalization ,但它为什么不用?是因为变长吗,变长序列我们也是能够padding到同一个长度进行训练的,至于为什么不用,是因为BN对一个Batch中对应位置的分量进行归一化,这就存在一定的问题,因为一个Batch中对应位置的分量不一定有意义,它可能是padding的结果。实际上LSTM训练的时候我们会把一个batch中的序列按照长度降序,长度短的转载 2022-01-22 13:51:47 · 595 阅读 · 0 评论 -
RNN解决序列太长存储激活值过大问题的方法:TBPTT
原始论文:[Williams, Ronald J., and Jing Peng. "An efficient gradient-based algorithm for on-line training of recurrent network trajectories."]TBPTT :Truncated Back Propagation Through TimeTBPTT中,每次处理一...转载 2020-04-05 21:25:38 · 940 阅读 · 0 评论 -
自动求导的原理(Autograd, Auto Differentiation)
知乎话题TensorFlow的求导,实际上是先提供每一个op求导的数学实现(人手工写的函数代码),然后使用链式法则自动求出整个表达式的导数。很好的示例代码:miniflow;开源计算图示例(1);开源计算图示例(2);开源计算图示例(3)...转载 2020-02-16 21:16:06 · 1263 阅读 · 0 评论 -
End-to-End简介
简介1、非端到端学习(传统的语音识别系统)传统的语音识别需要把语音转换成语音特征向量,然后把这组向量通过机器学习,分类到各种音节上(根据语言模型),然后通过音节,还原出最大概率的语音原本要表达的单词,一般包括以下模块:特征提取模块 (Feature Extraction):该模块的主要任务是从输入信号中提取特征,供声学模型处理。一般也包括了一些信号处理技术,尽可能降低环境噪声、说话人等...转载 2019-12-18 22:01:44 · 463 阅读 · 0 评论 -
联邦学习入门
原文今天我们来讲下最近比较博眼球的联邦学习。应该很多人听过但是始终都没懂啥是联邦学习?百度一下发现大篇文章都说可以用来解决数据孤岛,那它又是如何来解决数据孤岛问题的?对于联邦学习,大部分文章还都处于其学术分享会的报道阶段,并未详细介绍联邦学习的实现方法,难以理解其真容,本篇文章将从技术角度介绍联邦学习。1、联邦学习的背景介绍近年来人工智能可谓风风火火,掀起一波又一波浪潮,从人脸识别、活...转载 2019-12-16 00:23:28 · 3003 阅读 · 0 评论 -
深度学习在美团酒店搜索中的应用
引言2018年12月31日,美团酒店单日入住间夜突破200万,再次创下行业的新纪录,而酒店搜索在其中起到了非常重要的作用。本文会首先介绍一下酒店搜索的业务特点,作为O2O搜索的一种,酒店搜索和传统的搜索排序相比存在很大的不同。第二部分介绍深度学习在酒店搜索NLP中的应用。第三部分会介绍深度排序模型在酒店搜索的演进路线,因为酒店业务的特点和历史原因,美团酒店搜索的模型演进路线可能跟大部分公司都不...转载 2019-12-13 09:13:50 · 1466 阅读 · 0 评论 -
DSSM的细节
word hashingword hashing方法是用来减少输入向量的维度,该方法基于字母的n-gram。给定一个单词(good),我们首先增加词的开始和结束部分(#good#),然后将该词转换为字母n-gram的形式(假设为trigrams:#go,goo,ood,od#)。最后该词使用字母n-gram的向量来表示。这种方法的问题在于有可能造成冲突,因为两个不同的词可能有相同的n-gr...原创 2019-12-01 19:27:52 · 3152 阅读 · 0 评论 -
adam和adamW
Adam的缺点和改进Adam有很多的优点,但是在很多数据集上的最好效果还是用SGD with Momentum细调出来的。可见Adam的泛化性并不如SGD with Momentum。https://arxiV.org/pdf/1711.05101.pdf 中提出其中一个重要原因就是Adam中L2正则化项并不像在SGD中那么有效。L2正则和Weight Decay在Adam这种自适应学习率...转载 2019-11-24 00:14:44 · 3936 阅读 · 0 评论 -
语音识别
CD-DNN-HMM:https://www.jianshu.com/p/a0e01b682e8aHMM所需要的p(o|s)=p(s|o)p(o)/p(s); p(o)相当于和s无关的常量,消掉;"p(s)是某状态的先验概率,在缓解标注不平衡问题中是非常重要的,特别是训练句中包含很长静音段时就更是如此";"比如训练语料包含大量的silience,从而导致silience的后验概率偏大)";...转载 2019-02-28 16:39:36 · 310 阅读 · 0 评论 -
NCE损失(Negative Sampling)
DSSM的损失函数: 先是1个正例和5个负例过softmax:最后交叉熵损失函数:Word2Vec的损失函数:输入词的词向量和预测词(或负例)的分界面向量点乘,经过sigmoid,再过交叉熵损失函数在词向量的生成过程中,用的loss函数是NCE或negative sampling,而不是常规的softmax。在《learning tensorflow》这本书中,作者这...转载 2019-11-19 17:56:56 · 3850 阅读 · 0 评论 -
梯度消失、爆炸原因及其解决方法
1、梯度消失与梯度爆炸问题简述层数比较多的神经网络模型在使用梯度下降法对误差进行反向传播时会出现梯度消失和梯度爆炸问题。梯度消失问题和梯度爆炸问题一般会随着网络层数的增加变得越来越明显。例如,对于图所示的含有3个隐藏层的神经网络,梯度消失问题发生时,靠近输出层的hidden layer 3的权值更新相对正常,但是靠近输入层的hidden layer1的权值更新会变得...转载 2019-11-18 15:25:03 · 630 阅读 · 0 评论 -
Tensorflow论文解读
TensorFlow: Large-Scale Machine Learning on Heterogeneous Distributed Systems计算图里的node,有0~N个输入,有0~N个输出。计算图里的edge,分为Tensor-edge和Special-edge;Tensor的大小和类型可以在计算图构建时指定或者自动推导出来;Special-edge是控制依赖,没有数据流动。...原创 2019-11-15 11:35:36 · 1473 阅读 · 1 评论 -
当前深度神经网络模型压缩和加速都有哪些方法
本期推荐的论文笔记来自 PaperWeekly 社区用户@yanjoy。本文全面概述了深度神经网络的压缩方法,主要可分为参数修剪与共享、低秩分解、迁移/压缩卷积滤波器和知识精炼,论文对每一类方法的性能、相关应用、优势和缺陷等方面进行了独到分析。关于作者:小一一,北京大学在读硕士,研究方向为深度模型压缩加速。个人主页:http://yanjoy.win■论文 | A Survey of ...转载 2019-11-14 19:57:36 · 501 阅读 · 0 评论 -
XLNet
XLNet原理解读XLNet起作用的,归纳一下,共有三个因素;1. 与Bert采取De-noising Autoencoder方式不同的新的预训练目标:Permutation Language Model(简称PLM);这个可以理解为在自回归LM模式下,如何采取具体手段,来融入双向语言模型。这个是XLNet在模型角度比较大的贡献,确实也打开了NLP中两阶段模式潮流的一个新思路。2. 引...转载 2019-11-07 22:26:17 · 174 阅读 · 0 评论 -
CNN总结
常用组件:数据增强(造假数据): 256*256的原图,枚举224*224的子图,每个子图再水平翻转一次,数据量增大约(256-224)*(256-224)*2=2048倍,测试阶段每张图取10个子图(四个角各取一张中间再取一张,以及这些的水平反转图)得到10组softmax结果平均起来就是最终结果(如果像训练一样取2048个子图,预测速度就太太太慢了);这些造假数据的计算量很小,所以可以现...原创 2019-03-04 11:42:17 · 465 阅读 · 0 评论 -
NN in NLP
attention:https://blog.csdn.net/qq_41058526/article/details/80783925https://blog.csdn.net/u014665013/article/details/82619808句子翻译:decoder每时刻t的输入是t-1时刻的预测输出,t-1时刻的隐层输出z[t-1],t时刻来自encoder的句子向量。其中"...原创 2019-03-08 20:27:20 · 741 阅读 · 0 评论 -
NN in Image
DeepFace:1. 先使用3D对齐 (把人脸旋转到正面)2. 前面几个卷积层使用传统的共享参数卷积核;中间两个卷积层,卷积核不共享参数(对齐的人脸图片中,不同的区域会有不同的统计特征,卷积的局部稳定性假设并不存在,所以使用相同的卷积核会导致信息的丢失)3.倒数第二层采用全连接层提取出对应的人脸特征(测试阶段用这个特征经归一化后,表示该人脸)4. 最后一层是一个softmax层...原创 2019-03-10 17:18:30 · 262 阅读 · 0 评论 -
RNN_LSTM公式
转载 2016-10-11 13:34:52 · 462 阅读 · 0 评论 -
深度学习经验备忘录
1. 训练大数据的Conv-DSSM,跑起来一点儿不收敛,且有的时候运气好就往下收敛,有的时候运气不好就打死一点儿都不动,原因:学习速率设的太小了,走不出低谷。把0.0015改成0.15后,立马可以收敛了。原创 2016-10-13 15:44:37 · 576 阅读 · 0 评论 -
MXNet学习
1. 深度学习的编程模式比较http://blog.csdn.net/mydear_11000/article/details/50805585符号式程序(symbolic style programs)和命令式程序(imperative style programs):符号式程序构建好一张图,再编译(优化和分配内存),交给输入值,执行;有利于优化内存(in place中间结果的内转载 2016-11-04 14:49:40 · 339 阅读 · 0 评论 -
提升深度学习模型的表现,你需要这20个技巧
转载自机器之心 http://www.jiqizhixin.com/article/1562你可以怎样让你的深度学习模型实现更好的表现?这是一个我常被问到的问题:「我该怎么提升准确度?」或者「如果我的神经网络表现很糟糕我该怎么办?」……我常常给出的回答是:「我也不完全知道,但我有很多想法。」然后我开始列出所有我可以想到的可能能够带来效果改进的想法。我将这转载 2016-09-29 15:32:33 · 2891 阅读 · 0 评论 -
Doc2Vec
原理的话,这篇讲解的特别好:Distributed representations of sentences and documents应用的话,这个tutorial非常实用,直接可以用Python跑, 跑完后心里会明白不少:Sentiment Analysis Using Doc2Vec(Doc2Vec,可用用来做情感分析任务)Doc2Vec优点:1. Context层面保留词...转载 2017-11-26 14:04:30 · 1489 阅读 · 0 评论 -
数据预处理z-score重要的原因
原文链接:http://blog.csdn.net/intelligence1994/article/details/53888270由于图像数据的每一维一般都是0-255之间的数字,因此数据点只会落在第一象限,而且图像数据具有很强的相关性,比如第一个灰度值为30,比较黑,那它旁边的一个像素值一般不会超过100,否则给人的感觉就像噪声一样。由于强相关性,数据点仅会落在第一象限的很小的区域中,形...转载 2019-02-25 12:45:37 · 2993 阅读 · 0 评论 -
GAN
简单例子,拟合一维高斯分布:预训练:一上来直接训练生成器和判别器,效果差,所以先预训练判别器。对一个输入d,用它在目标分布上的概率密度做label, 判别器输出和label的MSE做损失函数;生成器的输入z,是某区间上的均匀分布(代码里使用linspace是很不恰当的),输出是G;判别器的输入真实数据x==>对应输出D1, 输入生成器过来的G==>对应输出D2; Te...原创 2019-04-06 19:08:57 · 389 阅读 · 0 评论 -
强化学习总结
强化学习的目标:学习最优决策序列,使其得到最大化的长期累积奖励;强化学习的数据,一部分是在真实环境中实践得到,一部分可从和虚拟环境的交互中模拟得到;从而丰富了训练数据;环境模型:状态转移概率P(s[t+1] | s[t],a), 奖励函数R(s[t+1],a)求解最优策略-->求解最优价值函数: 1.动态规划法(策略迭代,价值迭代,异步动态规划);2.蒙特卡洛法;3.时间差分法(...原创 2019-03-18 21:05:48 · 1509 阅读 · 0 评论 -
强化学习博客总结
强化学习很好的专题博客:图:agent和环境是2个节点,action和reward和state是3条边;MDP(Markov Decision Process,马尔科夫决策过程): 把MDP假设引入强化学习,目的是为了简化模型;有3个地方用到:1. 环境的下一状态只和"上一状态+action"有关(和以前状态无关);2.当前状态下的策略(即发动各个action的概率),只和当前状态有关(和...原创 2019-08-26 22:09:36 · 506 阅读 · 0 评论 -
蒙特卡洛树搜索(MCTS)的实例代码
另一篇博客对代码的讲解原理:在当前树节点(设为A)状态下,如果所有子节点都展开了,则按UCT算法选择最优节点作为当前节点,循环下去,直到该节点有未展开的子节点,则从未展开的子节点里瞎选一个并展开它(设为B),从B开始进行模拟(走下去直到游戏结束),得到该此模拟的Reward, 从B开始往上回溯(一直到A),沿途累加上该次Reward和模拟次数1;以上步骤,在A状态下可重复很多次直到超时...转载 2019-08-20 15:40:07 · 7036 阅读 · 2 评论 -
Transformer
Transformer讲解知识点:做机器翻译的,Self-attention, query-key-value, Multi-headed, FFN,position-embedding, 拟合残差,归一化是Layer Normalization,解码器增加了一层和编码器Attention,beam-search;所有的编码器在结构上都是相同的,但它们没有共享参数(每个编码器的网络参数...原创 2019-09-24 19:29:30 · 2235 阅读 · 0 评论 -
BERT
BERT通俗讲解精华:每个词最终的目标向量,充分得编码了该词前面的部分和该词后面的部分(充分利用了双向的上下文信息);牛在哪里:双向深度编码很有用;预训练做得好,省去了复杂的Task定制;在11个NLP任务上胜出;一个句子来了,每个单词有3个embedding相加,输入到Transformer里,每个词得到一个目标向量;预训练是同时训练以下2方面:1. Masked word:...原创 2019-09-27 16:51:14 · 149 阅读 · 0 评论 -
EMLo & GPT
ELMo: feature-based(做Task任务的时候直接使用预训练网络输出的词向量,即预训练网络不跟Task一起Train);双向RNN-LSTM;OpenAI GPT: fine-tune-based(做Task任务的时候,前面的预训练网络也跟着一起Train), 用的Transformer;BERT:fine-tune-based, Transformer,用加MASK的方法...原创 2019-09-27 16:55:00 · 426 阅读 · 0 评论 -
RNN
基本RNN: h[t-1]记录上一时刻中间输出,tahn(U*h[t-1]+W*x[t])-->h[t]LSTM:C是记忆,h是输出,x是输入;h和x并联,乘以3个W再sigmoid到0~1, 控制3个门;门就是在输入信号向量点乘控制向量;C[t-1]经过第一个门,通过一部分(剩下的等于是被遗忘掉了);W*[h[t-1], x[t]]经过第二个门,新增一部分记忆...原创 2019-03-13 11:33:51 · 316 阅读 · 0 评论 -
Google神经机器翻译系统_要点备忘
现有NMT系统缺点:计算量大,难应对低频词[2](2015经典NMT)里的模型,是(上一时刻隐藏层输出s,上一时刻输出层预测词的词向量e(y),和当前上下文向量c)这三者输入到当前时刻LRU单元中,得到当前时刻隐藏层输出s;“当前上下文向量c”是由encoder的所有时刻隐藏层输出h的加权得到;各时刻权重a是由上一时刻隐藏层输出s和encoder在各个时刻隐藏层输出h计算“相似度”后再原创 2016-10-10 11:17:47 · 1238 阅读 · 0 评论