![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
文章平均质量分 84
自然语言处理
咩咩_10538769
这个作者很懒,什么都没留下…
展开
-
Bert模型
语言表示语言表示有两种类型:1、上下文无关的语言表示,例如 Glove 和 Word2vec,其中词汇表中每个标记的嵌入是恒定的,并且不依赖于单词的上下文。缺点:具有完全不同含义的同一个词将具有相同的表示2、上下文有关的语言表示,例如 Elmo 和 OpenAI-GPT,其中令牌表示取决于使用它的单词的上下文BERT 模型有助于生成每个令牌的上下文表示。它甚至能够获取整个句子、句子对或段落的上下文。BERT 基本上使用了在非常大的数据集上以无监督的方式对模型进行预训练的概念进行...原创 2022-02-06 14:40:24 · 814 阅读 · 0 评论 -
Bert预训练
Bert模型的目的:预训练Transformer的encoder网络,从而大幅提高准确率1、预测遮挡单词:随机遮挡一个词或多个词,让encoder根据上下文来预测被遮挡的单词2、预测下一个句子:把两个句子放在一起,让encoder判断是否是原文中相邻的两个句子...原创 2022-01-02 21:48:28 · 6347 阅读 · 0 评论 -
Transformer
Transformer不是循环神经网络,没有循环结构,它也是一种seq2seq模型,主要依赖attention现在的机器翻译一般都用Transformer+bertattention 中有三个参数矩阵 Wk,Wq,Wv【encoder中有Wk,Wv】【decoder中有Wq】值越大,说明q:j与K:i匹配程度越高权重(相关性系数)公式:系数公式:总结一下全过程:根据Sj,先算出q:j ,然后计算k:i(m个k向量,for i=1,2..m),将所...原创 2021-12-28 19:45:07 · 1245 阅读 · 0 评论 -
attention与self-attention
因为seq2seq模型容易遗忘掉部分信息,引入attention模型,它可以大幅度提高seq2eq模型下图横轴是输入得句子长度,纵轴是模型评价值,BLEU越高说明翻译越准确,可以看到,当字数很长时,翻译得准确率就会降低优点:在attention的机制下,decoder每次更新状态时都会看一眼encoder的所有状态向量避免遗忘,attention还会告诉decoder应该关注哪一个状态(这也是名字的由来)缺电:计算量非常大过程:在encoder输入完最后一个状态向量hm时,de原创 2021-12-25 21:44:59 · 800 阅读 · 0 评论 -
文本生成与机器翻译
自然语言处理开始形成“基于规则”和“基于统计”的两大阵营基于统计代表:以LSA/PLSA/LDA为代表的先验概率模型 以HMM/CRF为代表的条件概率模型文本预处理主要环节: ◆文本处理的基本方法:分词、命名实体识别、词性标注 ◆词向量表示方法 ◆文本语料的数据分析 ...原创 2021-12-25 18:34:57 · 834 阅读 · 0 评论 -
Simple RNN模型
适用于:小规模数据集如何对序列数据进行建模?-----> RNN(many to one/many to many)模型我们知道,将一段文字整体输入逻辑斯蒂回归模型时,是属于一对一(one to one)模型,一个输入对应一个输出,这种一对一模型非常适合图片类数据,但不太适合文本数据原创 2021-12-08 17:38:11 · 1807 阅读 · 1 评论 -
LSTM模型
LSTM比RNN复杂很多,RNN只有一个参数矩阵A,LSTM有4个(遗忘门,输入门,更新值,输出门)LSTM有一个非常重要的传输带Ct,过去的信息通过这个传输带送给下一时刻,不会发生太大变化,并且通过这个传输带避免梯度消失的问题LSTM有很多门让信息有选择的通过遗忘门:将a向量待入sigmod函数得到相对应的f值,然后将这个f值与c传输带相乘得到output,当的值为0时,output也会相应的等于0,那么该条信息就不通过,当值为1时,output输出c本身,该条信...原创 2021-12-08 20:48:29 · 10654 阅读 · 0 评论