自然语言处理
文章平均质量分 92
张小猪的家
这个作者很懒,什么都没留下…
展开
-
Attention Is All You Need论文解读
文章目录1 Abstract、Introduction、Background2 Model Architecture2.1 Encoder2.2 Decoder2.3 Attention1 Abstract、Introduction、Background主要提了一下目前主流的技术和优缺点包括RNN、LSTM、GRU、encoder、decoder等,这里就不过多赘述了。2 Model Architecture首先看一下模型的整体结构,Transformer总体上遵循了encoder-decoder原创 2021-09-07 21:58:09 · 353 阅读 · 0 评论 -
面试问题汇总
1.现在对针对bert的改进有哪些?参考答案一方面,针对我们自己进行训练的模型,模型改进更多出现在微调网络的选择上。对于BERT的效果提升更多依赖于对数据的调整。另一方面,从整个NLP发展的角度,新型模型如ALBERT,XLNET都对BERT做了一系列的改进,如:为了降低参数量,对Embedding矩阵进行因式分解,不同的encoder层进行参数共享;预训练数据去除主题影响,句子对使用相同主题来源,最后发现模型在100w步后仍然没有过拟合,移除dropout层。2.fasttext和word2vec原创 2021-08-16 17:38:26 · 1568 阅读 · 0 评论 -
【自然语言处理】ELMo, GPT等经典模型的介绍与对比
接上一篇:BERT,Transformer的模型架构与详解文章目录2. ELMo, GPT等经典模型的介绍与对比2.1 认识ELMo学习目标什么是ELMoELMo的架构ELMo的预训练任务ELMo模型的效果ELMo的待改进点小节总结2.2 认识GPT学习目标什么是GPTGPT的架构GPT训练过程小节总结2.3 认识GPT2学习目标GPT2的架构GPT2模型的细节小节总结2.4 请详述BERT, GPT, ELMo模型的对比和各自的优缺点?学习目标BERT, GPT, ELMo之间的不同点BERT, GPT原创 2021-08-16 20:09:10 · 6178 阅读 · 1 评论 -
【自然语言处理】BERT,Transformer的模型架构与详解
文章目录1. BERT,Transformer的模型架构与详解1.1 认识BERT学习目标什么是BERTBERT的架构BERT的预训练任务小节总结1.2 Transformer的结构是什么样的? 各个子模块各有什么作用?学习目标Encoder模块Decoder模块Add & Norm模块位置编码器Positional Encoding小节总结1.3 Transformer结构中的Decoder端具体输入是什么? 在训练阶段和预测阶段一致吗?学习目标Decoder端的输入解析小节总结1.4 Trans原创 2021-08-16 17:22:20 · 3344 阅读 · 1 评论 -
【自然语言处理】Transformer架构解析
文章目录Transformer架构解析1. 认识Transformer架构Transformer模型的作用Transformer总体架构图2. 输入部分实现文本嵌入层的作用位置编码器的作用3. 编码器部分实现3.1 掩码张量3.2 注意力机制3.3 多头注意力机制3.4 前馈全连接层3.5 规范化层3.6 子层连接结构3.7 编码器层3.8 编码器4. 解码器部分实现4.1 解码器层4.2 解码器5. 输出部分实现线性层的作用softmax层的作用Transformer架构解析1. 认识Transfor原创 2021-08-16 17:10:27 · 1560 阅读 · 1 评论 -
【自然语言处理】RNN架构解析
文章目录RNN架构解析1.认识RNN模型1.1 什么是RNN模型:1.2 RNN模型的作用:1.3 RNN模型的分类:2.传统RNN模型3.LSTM模型RNN架构解析1.认识RNN模型1.1 什么是RNN模型:RNN(Recurrent Neural Network), 中文称作循环神经网络, 它一般以序列数据为输入, 通过网络内部的结构设计有效捕捉序列之间的关系特征, 一般也是以序列形式进行输出.RNN的循环机制使模型隐层上一时间步产生的结果, 能够作为当下时间步输入的一部分(当下时间步的输入原创 2021-08-16 16:27:58 · 1982 阅读 · 0 评论 -
【自然语言处理】经典的序列模型(HMM与CRF)
文章目录经典的序列模型(HMM与CRF)经典的序列模型(HMM与CRF)HMM模型的输入和输出HMM(Hidden Markov Model), 中文称作隐含马尔科夫模型, 因俄国数学家马尔可夫而得名. 它一般以文本序列数据为输入, 以该序列对应的隐含序列为输出.什么是隐含序列:序列数据中每个单元包含的隐性信息, 这些隐性信息之间也存在一定关联.举个栗子:给定一段文本: “人生该如何起头”我们看到的这句话可以叫做: 观测序列我们可以将这句话以词为单位进行划分得到:[“人生”, “该”原创 2021-08-16 16:04:13 · 255 阅读 · 0 评论 -
【自然语言处理】文本预处理
文章目录文本预处理1.认识文本预处理2.文本处理的基本方法2.1 分词2.2 命名实体识别2.3 词性标注3.文本张量表示方法3.1 one-hot3.2 word2vec3.3 word embedding4. 文本数据分析5.文本特征处理6.文本数据增强文本预处理1.认识文本预处理文本预处理及其作用文本语料在输送给模型前一般需要一系列的预处理工作, 才能符合模型输入的要求, 如: 将文本转化成模型需要的张量, 规范张量的尺寸等, 而且科学的文本预处理环节还将有效指导模型超参数的选择, 提升模型原创 2021-08-16 15:59:17 · 1142 阅读 · 0 评论