![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
倔强超
这个作者很懒,什么都没留下…
展开
-
从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史
张俊林博士的解读, 知乎专栏:从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史PPT链接:https://pan.baidu.com/s/1CR63tX64jIASQ0YgnUbh6ABert最近很火,应该是最近最火爆的AI进展,网上的评价很高,那么Bert值得这么高的评价吗?我个人判断是值得。那为什么会有这么高的评价呢?是因为它有重大的理论或者模型创新...转载 2019-02-21 17:16:36 · 485 阅读 · 0 评论 -
word2vec简单通俗易懂
word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单、高效,因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节,因而在一定程度上增加了这个工具包的神秘感。一些按捺不住的人于是选择了通过解剖源代码的方式来一窥究竟。 第一次接触 word2...转载 2019-04-05 15:17:53 · 472 阅读 · 0 评论 -
RNN梯度爆炸原因和LSTM解决梯度消失解释
RNN梯度爆炸原因:经典的RNN结构如下图所示:假设我们的时间序列只有三段, 为给定值,神经元没有激活函数,则RNN最简单的前向传播过程如下:假设在t=3时刻,损失函数为 。则对于一次训练任务的损失函数为 ,即每一时刻损失值的累加。使用随机梯度下降法训练RNN其实就是对 、 、 以及 求偏导,并不断调整它们以使L尽可能达到最小的过...转载 2019-04-11 16:57:07 · 10792 阅读 · 2 评论