nlp
文章平均质量分 72
修改资料-昵称
这个作者很懒,什么都没留下…
展开
-
6. Bert
https://blog.csdn.net/jiaowoshouzi/article/details/89073944 目录 6.1 bert是什么? 6.2 bert改进点 6.2.1 输入表示 6.2.2 Masked Language Model 6.2.3 Next Sentence Prediction(NSP) 6.2.4 fine-tuning 6.2.5 bert优缺点 6.1 bert是什么? Bert是一个预训练模型。 那什么是预训练模型呢?简单举例如下: .原创 2021-02-19 10:36:43 · 409 阅读 · 1 评论 -
5. Transformer
Transformer也是一种encoder-decoder的结构,但是摒弃了传统encoder-decoder模型必须结合CNN或RNN的固有模式,选择只用上面介绍的attention。 这种方式的原因在于:以RNN举例,RNN在训练过程中,后一时刻的参数与前一时刻有关,需要不断的按照顺序进行迭代才能进行下一步操作,导致效率低下。此外,RNN模型中涉及到的参数量也很多~~ 因此,transformer的主要目的在于:减少计算量和提高并行效率的同时,不损害最终的实验结果。 那么transformer模原创 2021-02-18 15:35:15 · 239 阅读 · 1 评论 -
4. Attention注意力机制(2017年提出)
在seq2seq结构中,encoder把所有的输入序列都编码成一个统一的语义向量context,然后再由decoder解码。 但是由于context包含原始序列中的所有信息,它的长度就成了限制模型性能的瓶颈,如机器翻译问题,当要翻译的句子比较长时,一个context可能存不了那么多信息,就会造成精度下降。除此之外,如果按照上述方式实现,只用到了编码器的最后一个隐藏层状态,信息利用率低。 所以要改进seq2seq结构,最好的切入角度就是:利用encoder所有隐藏层状态解决context长度限制...原创 2021-01-11 16:10:11 · 733 阅读 · 0 评论 -
3. Seq2seq(2014年提出)
虽然RNN\LSTM\GRU可以获取上下文之间的关系,但是对于一些问题缺不太适用,如翻译(摘要、问答、对话等),我们不能要求中英文翻译中,中文句子的第一个词与英文句子的第一个词的长度一致,甚至不能要求对应的含义是一样的。 对于这种RNN等不能解决的问题,可以使用两个RNN(encoder RNN + decoder RNN)拼接成的seq2seq来解决,如下图所示。 【提醒】 seq2seq只是一种encoder-decoder的结构,这里也只是选择基于RNN的seq2seq进行简单的介绍,并不是说原创 2021-01-05 18:32:25 · 619 阅读 · 0 评论 -
2. RNN/LSTM/GRU
2.1RNN(循环神经网络) RNN是一种序列模型,会有一定的记忆单元,能够记住之前的历史信息,从而可以建模上下文相关的一些语义。RNN中的记忆单元可以记住当前词之前的信息。所以,RNN的主要用途是处理和预测序列数据,来源则是为了刻画一个序列当前的输出和之前信息的关系。 不同于CNN每层之间的节点是无连接的,RNN隐藏层之间的结点是有连接的,隐藏层的输入不仅可以作为输入层的输出,还包含上一时刻隐藏层的输出。 基本结构图如下: 典型结构图如下: x是神经网络的输入,U是输入层到隐藏层之间的.原创 2021-01-04 10:02:30 · 481 阅读 · 1 评论 -
1. Word Embedding
Word Embedding(将文本转换成适用于计算机的语言) 机器无法直接理解输入的文本信息,所以需要先将文本信息转换成机器可以读懂的语言,这就涉及到编码部分 - - word embedding。 Word embedding的主流有两种: (https://blog.csdn.net/savinger/article/details/89308831) (1)基于频率的Word embedding:TF-IDF vector、count vector、co-occurence vector;原创 2020-12-30 17:56:55 · 165 阅读 · 0 评论