![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
gbl5555
小菜鸟也可以飞得很高
展开
-
RNN 真的会梯度消失么
学过RNN的想必都听过下面的言论,“RNN容易产生梯度消失和梯度爆炸”,“RNN不能捕获长期记忆”,那么RNN为什么不能捕获长期记忆?RNN真的就会发生梯度消失和爆炸吗?先来个答案,当序列很长的时候,RNN确实不能捕获长期依赖关系,也确实容易梯度爆炸,但是否容易梯度消失,却要好好分析下,亦或者说,RNN梯度消失不同于我们往常理解的“MLP、CNN等里面的梯度消失”。详细解说请往下看~...原创 2020-04-07 14:22:24 · 545 阅读 · 0 评论 -
为什么预训练模型那么好用?
一模一样的模型架构,直接用领域数据训练模型,可能生成效果贼差,语句不通也是常事。在预训练的bert上,微调bert权重,生成效果通顺又好~为什么呢?第一,领域数据太少。第二,学习难度大。就像人学习,如果拥有通用知识,比如学过高中语文,在此基础上去学领域知识会更容易,如果连基本造句都不会,就去学专业知识,怕是头都大了。而预训练模型用了大量的维基百科等通用数据来教会模型基础知识...原创 2020-03-17 15:52:14 · 2956 阅读 · 0 评论 -
Word2Vec原理
本篇不是入门型文章,仅记录关于word2vec的一点思考,欢迎大家一起讨论。为了更好地表达,本文会采用cs224n官网以及刘建平老师的博客中的一些图片,在下面的介绍中不再一一注明出处。目录一、原始的word2vec模型架构二、原始word2vec的改进2.1Hierarchical Softmax2.2Negative Sampling一、原始的word2vec模型...原创 2019-12-30 22:21:05 · 530 阅读 · 10 评论