NLP
文章平均质量分 52
sxw婉~
这个作者很懒,什么都没留下…
展开
-
BERT知识点梳理
1 模型结构1.token embedding :为什么attention is all you need中要乘上aqrt(hidden)?因为位置编码使用sin/cos,值域比xavier初始化的tokenembedding大很多[-0.13,0.13],所以要增强。但是BERT改变了position embedding的方式,就没有必要了2.Scaled Dot Product:为什么是缩放点积,而不是点积模型?相较于加性模型,点积模型具备哪些优点?当输入信息的维度 d 比较高,原创 2021-09-22 21:21:40 · 733 阅读 · 0 评论 -
Transformer结构及其应用详解--GPT、BERT、MT-DNN、GPT-2
本文首先详细介绍Transformer的基本结构,然后再通过GPT、BERT、MT-DNN以及GPT-2等基于Transformer的知名应用工作的介绍并附上GitHub链接,看看Transformer是如何在各个著名的模型中大显神威的。一、取代RNN——Transformer在介绍Transformer前我们来回顾一下RNN的结构对RNN有一定了解的话,一定会知道,RNN有两个很明显的问题效率问题:需要逐个词进行处理,后一个词要等到前一个词的隐状态输出以后才能开始处理 如果传原创 2021-09-22 19:56:59 · 1549 阅读 · 0 评论 -
NLP学习路线
原创 2021-09-22 11:53:06 · 61 阅读 · 0 评论 -
CRF笔记
本文先对马尔可夫过程及隐马尔可夫算法进行了简单的介绍;然后,对条件随机场的定义及其三种形式进行了详细推导;最后,介绍了条件随机场的三大问题,同时针对预测问题给出了代码实践。条件随机场(conditional random fields,简称 CRF,或CRFs),是一种判别式概率模型,常用于标注或分析序列资料,如自然语言文字或是生物序列。条件随机场是条件概率分布模型P(Y|X),表示的是给定一组输入随机变量X的条件下另一组输出随机变量Y的马尔可夫随机场,也就是说CRF的特点是假设输出随机变量构成马尔原创 2021-09-16 14:30:18 · 76 阅读 · 0 评论