NLP基础
文章平均质量分 72
薛定谔的炼丹炉!
这个作者很懒,什么都没留下…
展开
-
(无敌版的简洁版)深入理解transformer源码
原文链接:https://blog.csdn.net/zhaojc1995/article/details/109276945 参考资料: transformer原论文 深入理解transformer及源码 图解Transformer(完整版) The Annotated Trans转载 2021-09-29 11:30:55 · 895 阅读 · 0 评论 -
(简洁版)Transformer源码解析
原文链接:https://www.cnblogs.com/zingp/p/11696111.html#_label10 阅读目录1 模型的思想2 模型的架构3 Embedding3.1 Word Embedding3.2 Positional Encoding4 Encoder4.1 Muti-Head-Attention4.1.1 Self-Attention4.1.2 Add & Norm4.2 Feed-Forward Network5 Decoder5.1转载 2021-09-27 18:06:51 · 2585 阅读 · 0 评论 -
在transformer中,mask_fill掩码中为什么把0替换成-1e9
mask主要为了将看不见的词向量,也即未来的数据替换成0,避免看见要预测的值核心在于mask后的值要送入softmax中,0对应的softmax值为1,-1e9的值对应的softmax值才能接近于0原创 2021-09-27 18:04:52 · 986 阅读 · 0 评论 -
(无敌详细+链接代码注释版)深度学习-图解Transformer (变形金刚)
原文链接:https://zhuanlan.zhihu.com/p/105493618快速导航:迷途小书僮:The Annotated Transformer的中文注释版(1)81 赞同 · 33 评论文章迷途小书僮:The Annotated Transformer的中文注释版(2)24 赞同 · 14 评论文章迷途小书僮:The Annotated Transformer的中文注释版329 赞同 · 24 评论文章迷途小书僮:Transformer中的beam search42 赞同 · 7 评论文章转载 2021-09-27 18:02:37 · 3718 阅读 · 0 评论 -
LSTM函数详解(keras)
原文链接:https://www.zhihu.com/question/64470274https://blog.csdn.net/jiangpeng59/article/details/77646186跑试验的间隙,遇到了同样的困惑,看了一圈答案之后,想明白了。再来给大家白话解释一遍。根据Keras 官方文档的函数定义:keras.layers.LSTM(units, activation='tanh', recurrent_activation='sigmoid', ....units: Posit转载 2021-09-26 18:20:15 · 11015 阅读 · 2 评论 -
Language Modeling(语言模型)
语言模型要做的事情就是估测一个word sequence(也就是一句话的概率),也就是说给你一个句子(由一串词汇word构成的),这个就代表的是word,例子中有个word,这个合起来就是一个句子。language model要做的事情就是,你要找一个function告诉我们说这个句子出现的概率有多大。举例来说: recognize speech和wreck a beach,他们的发音其实是一样的(破坏一个海滩和语音辨识的英文发音是一样的)。所以光听语音你是没有办法去判断,是破坏一个海滩还是语音辨识转载 2021-09-23 16:18:53 · 1523 阅读 · 0 评论 -
(汇总笔记链接)李宏毅深度学习与人类语言处理 ——2020
课程向:深度学习与人类语言处理 ——李宏毅,2020 (P1)https://blog.csdn.net/qq_44574333/article/details/108041754课程向:深度学习与人类语言处理 ——李宏毅,2020 (P2&3)https://blog.csdn.net/qq_44574333/article/details/108045411课程向:深度学习与人类语言处理 ——李宏毅,2020 (P4)https://blog.csdn.net/qq_44574333/原创 2021-09-23 10:23:24 · 249 阅读 · 0 评论 -
bert介绍和使用
原文链接:https://blog.csdn.net/weixin_46425692/article/details/108890831?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522163175571916780274115633%2522%252C%2522scm%2522%253A%252220140713.130102334…%2522%257D&request_id=163175571916780274115633&转载 2021-09-16 17:57:16 · 1759 阅读 · 0 评论 -
(简洁)BERT详解
原文链接:https://blog.csdn.net/yangdelong/article/details/85070608?ops_request_misc=&request_id=&biz_id=102&utm_term=BERT&utm_medium=distribute.pc_search_result.none-task-blog-2allsobaiduweb~default-7-85070608.pc_search_result_control_group&转载 2021-09-16 17:41:18 · 1166 阅读 · 0 评论 -
.BERT模型预训练与微调
原文链接:https://blog.csdn.net/weixin_46649052/article/details/118936381?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522163149603816780357297206%2522%252C%2522scm%2522%253A%252220140713.130102334…%2522%257D&request_id=163149603816780357297206&转载 2021-09-16 17:40:30 · 837 阅读 · 0 评论 -
论文解读:Bert原理深入浅出
原文链接:https://www.jianshu.com/p/810ca25c4502论文解读:Bert原理深入浅出Bert 自 Google 于 2018 年发表至今,一直给人们带来惊喜,期间也陆陆续续因为Bert出现的原因多了不少新的岗位,甚至公司 JD 上都明确表明必须懂 Bert。它在 11 项自然语言处理任务中均表现出惊人的成绩:包括将 GLUE 基准推至 80.4%(绝对改进率7.6%),MultiNLI 精度达到 86.7%(绝对改进 5.6%)和 SQuAD v1.1 问题回答测试 F转载 2021-09-16 16:13:17 · 566 阅读 · 0 评论 -
(牛逼)深入理解transformer源码
原文链接:https://blog.csdn.net/zhaojc1995/article/details/109276945 参考资料: transformer原论文 深入理解transformer及源码 图解Transformer(完整版) The Annotated Trans转载 2021-09-15 16:59:18 · 678 阅读 · 0 评论 -
2017Transformer论文翻译
原文链接:https://blog.csdn.net/qq_29695701/article/details/88096455 基本是机器翻译,进行了简单的人工修正,凑活看吧 原论文: 《Attention Is All You Need》 源代码:https://github转载 2021-09-15 16:56:35 · 515 阅读 · 0 评论 -
(预测时候Decoder是怎么输入?)transformer 模型的decoder部分 带gif动图
训练的时候并行,预测的时候串行训练阶段所有encoder的正确的输入输出都是已知的,所以可以并行执行,因为我们拿ground truth进行训练,预测阶段我们并不能知道decoder会输出什么,所以只能逐个生成。以翻译为例,训练阶段我是知道decoder最终输出是“我爱中国”,所以decoder的【输入】在训练阶段分别为(1)起始符(2)起始符+我(3)起始符+我+爱(4)起始符+我+爱+中国,因为我们知道正确的最终输出是什么,所以这4个阶段是可以并行执行的但是预测阶段,我们是不知道decoder的输转载 2021-09-15 11:15:59 · 9706 阅读 · 11 评论 -
(通俗易懂)深度学习Transformer模型介绍
原文链接:https://xiaosongshine.blog.csdn.net/article/details/86547433 Transformer 是 Google 的团队在 2017 年提出的一种 NLP 经典模型,现在比较火热的 Bert 也是基于 Transformer。Transformer 模型使用了 Self-Attention 机制,不采用 RNN 的顺序结构,使得模型可以并行化训练,而转载 2021-09-15 11:07:26 · 2340 阅读 · 0 评论 -
(代码中使用拆分的方式实现多头注意力)详解Transformer中Self-Attention以及Multi-Head Attention
原文链接:https://blog.csdn.net/qq_37541097/article/details/117691873 原文名称:Attention Is All You Need 原文链接:https://arxiv.org/abs/1706.03762 如果不想看文章转载 2021-09-14 15:08:27 · 705 阅读 · 0 评论 -
(详细)Transformer完整版)
原文链接:https://blog.csdn.net/longxinchen_ml/article/details/86533005 作者: 龙心尘 时间:2019年1月 出处:https://blog.csdn.net/longxinchen_ml/article/details/转载 2021-09-14 15:05:52 · 8734 阅读 · 2 评论 -
论文解读 | Transformer 原理深入浅出
原文链接:https://www.jianshu.com/p/c36bfb8c1a17Attention 机制由 Bengio 团队于 2014 年提出,并广泛应用在深度学习的各个领域。而 Google 提出的用于生成词向量的 Bert 在 NLP 的 11 项任务中取得了效果的大幅提升,Bert 正是基于双向 Transformer。Transformer 是第一个完全依赖于 Self-Attention 来计算其输入和输出表示的模型,而不使用序列对齐的 RNN 或 CNN。更准确的讲,Transfo转载 2021-09-14 15:04:32 · 1750 阅读 · 0 评论 -
Multi- Head self-Attention 机制详解
原文链接:https://www.jianshu.com/p/e647d3a10d9c在「拆 Transformer 系列一:Encoder-Decoder 模型架构详解」中有简单介绍 Attention,Self-Attention 以及 Multi-Head Attention,都只是在直观上介绍 Attention 的作用,如何能够像人的视觉注意力机制那样,记住关键信息,并且也介绍了 Self-Attention 机制如何能通过对自身注意力加权来学习句子内部结构以及一些语法特征。现在,我还要打算继转载 2021-09-13 17:02:54 · 3905 阅读 · 0 评论 -
位置编码在注意机制(self-attention)中的作用
原文链接:https://baijiahao.baidu.com/s?id=1701689119256940861阅读本文的前置知识神经网络知识。有一种叫做注意机制的东西,但是你不需要知道注意力具体实现。RNN/LSTM的不足。A. Vaswani等人的《Attention Is All You Need》被认为是解决了众所周知的LSTM/RNN体系结构在深度学习空间中的局限性的突破之一。本文介绍了transformers 在seq2seq任务中的应用。 该论文巧妙地利用了 D.Bahdanau 等人通过转载 2021-09-13 16:10:43 · 487 阅读 · 0 评论 -
理解self-attention的Q, K, V的含义
如果不设置 W_Q、W_k、W_v,我们计算的权重很大程度上依赖于我们如何确定原始输入向量点乘的物理意义:两个向量的点乘表示两个向量的相似度。就是Q如果自己跟自己(Q)相乘的话,那么根据向量点乘知识知道,俩个向量越相似,内积越大,当一个向量与自己做内积,再与其他不同词的向量做内积后(行成一个打分向量),该向量经过softmax后,就会变成有一个位置的值特殊的大(自己与自己相乘),其他位置的值非常非常小的状况出现,比如[0.98,0.01,0.05,0.05]那么,这样的得分再与V矩阵相乘后得出的加权向量原创 2021-09-13 15:50:16 · 7503 阅读 · 6 评论 -
(小例子)通俗理解自注意力(self-attention)
原文链接:https://www.jianshu.com/p/c6a090af4b30谷歌在2017年发表了一篇论文《Attention Is All You Need》,论文中提出了transformer模型,其核心就是self-attention的架构,这一突破性成果不仅洗遍了NLP的任务,也在CV中取得了非常好的效果,有大道至简的感觉。本文通过一个通俗易懂的例子[1]来介绍self-attention。文章首发个人博客。(注:本文例子完全来在参考文章,包括文章的gif动图,感谢作者的文章)介绍转载 2021-09-13 14:56:12 · 695 阅读 · 0 评论 -
transformer 模型中self-attention自注意力
原文链接:https://blog.csdn.net/weixin_40871455/article/details/86084560 transformer模型在《Attention is all you need》论文中提出 这篇论文主要亮点在于:1)不同于以往主流机器翻译使用基于RNN的seq2seq模型框架,该论文用attention机制代替了RNN搭建了整个模型框架。2)提出了多头注意力(Multi-h转载 2021-09-13 14:54:19 · 681 阅读 · 0 评论 -
(简洁)word embedding理解
原文链接:https://blog.csdn.net/weixin_42421001/article/details/81636401 word embedding:NLP语言模型中对单词处理的一种方式,这种技术会把单词或者短语映射到一个n维的数值化向量,核心就是一种映射关系,主要分为两种方式: 1.one hot encoding:对语料库中的每个单词都用一个n维的one hot向量表示,其中n为语料库中不同单转载 2021-09-13 14:48:25 · 226 阅读 · 0 评论 -
(全)Word Embedding
原文链接:https://blog.csdn.net/L_R_H000/article/details/81320286 最近做完UNIT一个小项目后,结合同时期看KBQA的文章,对NLP/NLU方向产生了比较大的兴趣,想深入学习一下,结合一篇综述Recent Trends in Deep Learning Based Natural Language Processing(参考文献[5]为其阅读笔记)的阐述顺序,转载 2021-09-09 13:47:03 · 3680 阅读 · 0 评论 -
(一个批次数据更新一次U,V,W)RNN的前向传播和反向传播
question:反向传播过程中w,u,v要更新几次?U,V,W的梯度是将所有时刻(一个批次数据)的偏导数加起来,而不是对单独每个时刻偏导数都更新一次U,V,W反向传播意思是最小化损失函数从而来更新网络的参数,不是时间上的反向;wuv参数在RNN网络中是共享的,训练神经网络时数据分批,几批数据就更新几次参数。如果梯度小于1,则远离输出层时刻的梯度非常小,在最终的U,V,W的梯度里几乎为0,也就是说起不到帮助更新的作用,也就是无论如何加深网络,只有靠近输出的若干层才真正起到学习的作用,这使得循环神经网络转载 2021-09-08 11:32:18 · 829 阅读 · 0 评论 -
双向RNN深度RNN几种变种
原文链接:https://cloud.tencent.com/developer/article/1144238前言:前面介绍了LSTM,下面介绍LSTM的几种变种双向RNNBidirectional RNN(双向RNN)假设当前t的输出不仅仅和之前的序列有关,并且 还与之后的序列有关,例如:预测一个语句中缺失的词语那么需要根据上下文进 行预测;Bidirectional RNN是一个相对简单的RNNs,由两个RNNs上下叠加在 一起组成。输出由这两个RNNs的隐藏层的状态决定。如下图:网络构建的代码如转载 2021-09-07 16:15:27 · 238 阅读 · 0 评论 -
(简洁)GRU网络
原文链接:https://www.cnblogs.com/jiangxinyang/p/9376021.html 1、GRU概述 GRU是LSTM网络的一种效果很好的变体,它较LSTM网络的结构更加简单,而且效果也很好,因此也是当前非常流形的一种网络。GRU既然是LSTM的变体,因此也是可以解决RNN网络中的长依赖问题。 在LSTM中引入了三个门函数:输入门、遗忘门和输出门来控制输入值、记忆值和输出值。而在GRU模型中只有两个门:分别是更新门和重置门。具体结构如下转载 2021-09-07 15:57:37 · 2021 阅读 · 0 评论 -
(动图)LSTM和GRU图解
原文链接:http://www.atyun.com/30234.html在这篇文章中,我们将从LSTM和GRU背后的直觉开始。然后我(Michael)将解释使LSTM和GRU表现良好的内部机制。如果你想了解这两个网络背后的机制,那么这篇文章就是为你准备的。短期记忆RNN受到短期记忆的影响。如果序列很长,他们将很难将信息从较早的时间步传送到后面的时间步。因此,如果你尝试处理一段文本进行预测,RNN可能会遗漏开头的重要信息。在反向传播期间,RNN存在梯度消失的问题(梯度用于更新神经网络权重的值)。梯消失转载 2021-09-07 15:55:59 · 516 阅读 · 0 评论 -
(通俗易懂)RNN及LSTM
原文链接:https://blog.csdn.net/zhaojc1995/article/details/80572098 本文部分参考和摘录了以下文章,在此由衷感谢以下作者的分享! https://zhuanlan.zhihu.com/p/28054589 https://blo转载 2021-09-07 15:00:46 · 5447 阅读 · 0 评论 -
(挺清楚)深度学习之RNN(循环神经网络)
原文链接:https://blog.csdn.net/qq_32241189/article/details/80461635 一 RNN概述 前面我们叙述了BP算法, CNN算法, 那么为什么还会有RNN呢?? 什么是RNN, 它到底有什么不同之处? RNN的主要应用领域有哪些呢?这些都是要讨论的问题. 1) BP算法,CNN之后, 为什么还有RNN?转载 2021-09-07 14:59:26 · 904 阅读 · 0 评论