深度学习(NLP领域)
UESTC_20172222
向上的路,并不拥挤。 拥挤是因为,大部分人选择了安逸。
展开
-
【深度学习】LSTM GRU详细解释原理
LSTM 和GRU详细结构描述中文英文因为网上已经有很多了,我这里就不赘述了,这里我认为目前我看的里面讲的最清楚最好的两个大牛,写在这里也是方便以后自己查看中文LSTM详细中文描述GRU详细中文描述英文LSTM 和 GRU详细中英文描述...转载 2019-01-17 12:10:17 · 1255 阅读 · 0 评论 -
【深度学习】CVAE的KL损失公式的推导
KL散度,VAE KL散度(相对熵)衡量两个概率分布的距离,两个概率分布越相似,KL散度越小,交叉熵越小。表示已知q,p的不确定性程度-p的不确定性程度交叉熵:表示已知分布p后q的不确定程度,用已知分布p去编码q的平均码长交叉熵在分类任务中为loss函数往往交叉熵比均方误差做loss函数好1.均方差求梯度太小,在深度网络中,...转载 2019-07-12 19:44:35 · 2477 阅读 · 2 评论 -
【深度学习】 XLNet的细节以及和bert的联系和区别
这两天,XLNet貌似也引起了NLP圈的极大关注,从实验数据看,在某些场景下,确实XLNet相对Bert有很大幅度的提升。就像我们之前说的,感觉Bert打开两阶段模式的魔法盒开关后,在这条路上,会有越来越多的同行者,而XLNet就是其中比较引人注目的一位。当然,我估计很快我们会看到更多的这个模式下的新工作。未来两年,在两阶段新模式(预训练+Finetuning)下,应该会有更多的好工作涌现出来。根...转载 2019-07-18 11:30:34 · 532 阅读 · 0 评论 -
【机器学习】k-means聚类中K该如何选择
最近做了一个数据挖掘的项目,挖掘过程中用到了K-means聚类方法,但是由于根据行业经验确定的聚类数过多并且并不一定是我们获取到数据的真实聚类数,所以,我们希望能从数据自身出发去确定真实的聚类数,也就是对数据而言的最佳聚类数。为此,我查...转载 2019-07-23 17:03:43 · 1151 阅读 · 0 评论 -
【深度恶习】如何防止过拟合
防止过拟合自己这里总结一下什么是过拟合过拟合就是模型的泛化能力不好,我们训练出来的模型表现出低偏差,高方差。通常是由两个方面引起的 数据+模型复杂度解决办法出现这种情况:我们可以通过增加更多训练数据集,让模型看到更多的特征组合我们可以降低我们的模型的复杂度,也就是适当的减少一些参数同时我们还可以使用dropout,l2正则。在训练的时候,我们可以根据模型的在验证集的指标来判断是否...原创 2019-07-29 19:10:00 · 255 阅读 · 0 评论 -
【深度学习】beam search过程以及优缺点
beamsearch 的过程Beamseach 是我们在生成任务中常用的技术,它是在测试的时候使用。过程:假设我们的单词表大小为50,我们设置的beam_size为5在生成第一个单词的时候,选择概率最大的5个单词,假设为a,b,c,d,e在生成第二个单词的时候,我们将第一步生成的5个单词和单词表中的每个单词进行组合,我们将得到5*50中组合,在这些组合中选择概率最高的5个重复上述过程,...原创 2019-07-29 19:42:53 · 2347 阅读 · 1 评论 -
【深度学习】BPE的算法过程 和优缺点
什么是BPEBPE字节对编码。他的算法过程可以简单的描述为迭代的将字符串里面出现频率最高的字符子串用一个新的符号来代替.具体的过程可以参考这两篇博客大佬1 ;大佬2.优缺点优点 它是介于字符和单词之间的一种语义单元表示,其可以一定程度上缓解OOV问题,同时也减少了单词表的大小。缺点 因为他是基于频率统计的,所以对语料的很有依懒性,当我们的语料是通用领域的,而且规模很大,使用BPE效果...原创 2019-08-01 20:22:29 · 1621 阅读 · 0 评论 -
【机器学习】浅谈凸优化
reference来自这位大佬转载 2019-08-11 09:37:54 · 296 阅读 · 0 评论 -
【深度学习】L1和L2详解
reference来自这位大佬,这里只是为了学习使用,侵权请联系我删除转载 2019-09-02 16:00:59 · 1706 阅读 · 0 评论 -
【深度学习】逻辑回归损失函数如果用平方损失有什么问题
特别无奈逻辑回归的损失函数为啥是交叉熵我的另一篇博客:逻辑回归为什么使用对数损失函数逻辑回归为啥不用平方损失原因很简单:就是会出现梯度消失问题,至于为啥看下面的这个推导(我真是无语!),其他的真的没啥说的了...原创 2019-09-06 10:53:31 · 2196 阅读 · 1 评论 -
【深度学习】特征提取器:Transformer,Rnn,CNN之间的相互比较
在辞旧迎新的时刻,大家都在忙着回顾过去一年的成绩(或者在灶台前含泪数锅),并对2019做着规划,当然也有不少朋友执行力和工作效率比较高,直接把2018年初制定的计划拷贝一下,就能在3秒钟内完成2019年计划的制定,在此表示祝贺。2018年从经济角度讲,对于所有人可能都是比较难过的一年,而对于自然语言处理领域来说,2018年无疑是个收获颇丰的年头,而诸多技术进展如果只能选择一项来讲的话,那么当之无愧...转载 2019-06-10 21:04:31 · 3991 阅读 · 0 评论 -
【深度学习】sentencepiece工具之BPE训练使用
为什么要使用BPE,BPE是什么晚上补上使用教程代码使用的语料在这里# -*- coding: utf-8 -*-#/usr/bin/python3import osimport errnoimport sentencepiece as spmimport reimport logginglogging.basicConfig(level=logging.INFO)...原创 2019-06-05 16:12:55 · 5678 阅读 · 5 评论 -
RNN出现梯度消失和梯度爆炸的原因
这位大佬写的非常好原创 2019-02-18 10:14:12 · 2724 阅读 · 0 评论 -
【深度学习】各种注意力机制:encoder-decoder,self-attention,multi-head attention的区别
最近以QA形式写了一篇nlp中的Attention注意力机制+Transformer详解 分享一下自己的观点,目录如下:一、Attention机制剖析1、为什么要引入Attention机制?2、Attention机制有哪些?(怎么分类?)3、Attention机制的计算流程是怎样的?4、Attention机制的变种有哪些?5、一种强大的Attention机制:为什么自注意力模型(self-Atte...转载 2019-03-24 21:07:04 · 13844 阅读 · 1 评论 -
【深度学习】从Word Embedding到Bert模型
Bert最近很火,应该是最近最火爆的AI进展,网上的评价很高,那么Bert值得这么高的评价吗?我个人判断是值得。那为什么会有这么高的评价呢?是因为它有重大的理论或者模型创新吗?其实并没有,从模型创新角度看一般,创新不算大。但是架不住效果太好了,基本刷新了很多NLP的任务的最好性能,有些任务还被刷爆了,这个才是关键。另外一点是Bert具备广泛的通用性,就是说绝大部分NLP任务都可以采用类似的两阶段...转载 2019-03-24 21:38:09 · 490 阅读 · 0 评论 -
【深度学习】 word2vec原理详解(非常值得读的一篇文章)
word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单、高效,因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节,因而在一定程度上增加了这个工具包的神秘感。一些按捺不住的人于是选择了通过解剖源代码的方式来一窥究...转载 2019-03-27 20:41:02 · 742 阅读 · 0 评论 -
【深度学习】LSTM为什么会可以解决梯度消失问题
为了想清楚这个问题真心不容易,感谢这个知乎大佬我尝试从另一个角度——sigmoid函数值分布与导数值分布的差异,来解释LSTM的gate怎么起作用。对于RNN来说,前后两个step的hidden state中间经过了一层sigmoid,所以后向传播的时候梯度会乘上一个sigmoid的导数值;对于LSTM来说,前后两个step的hidden cell没有经过一个sigmoid层,而是乘了一个sig...原创 2019-04-18 21:43:38 · 7653 阅读 · 1 评论 -
【机器学习】分类时,使用平方损失搭配sigmoid激活函数出梯度消失现象
当sigmoid函数和MSE一起使用时会出现梯度消失。原因如下:(1)MSE对参数的偏导(2)corss-entropy对参数的偏导由上述公式可以看出,在使用MSE时,w、b的梯度均与sigmoid函数对z的偏导有关系,而sigmoid函数的偏导在自变量非常大或者非常小时,偏导数的值接近于零,这将导致w、b的梯度将不会变化,也就是出现所谓的梯度消失现象。而使用cross-entrop...原创 2019-05-23 11:10:09 · 1497 阅读 · 0 评论 -
【机器学习】分类时,为什么不使用均方误差而是使用交叉熵作为损失函数
MSE对于每一个输出的结果都非常看重,而交叉熵只对正确分类的结果看重当MSE和交叉熵同时应用到多分类场景下时,(标签的值为1时表示属于此分类,标签值为0时表示不属于此分类),**MSE对于每一个输出的结果都非常看重**,**而交叉熵只对正确分类的结果看重**。例如:在一个三分类模型中,模型的输出结果为(a,b,c),而真实的输出结果为(1,0,0),那么MSE与cross-entropy相对应的...原创 2019-05-23 11:23:35 · 3593 阅读 · 0 评论