- 博客(4)
- 收藏
- 关注
原创 Attention机制鸟瞰(16年开始)
背景知识Attention机制可以理解为一种文本聚焦方法,基本思想是对文本分配注意力权重,把注意力集中在相关的文本内容,增加这部分的贡献。 假设q_t就是时刻t下的query向量,K是key矩阵,k_s是其中一个key向量,V是value矩阵,我们先对q_t和每个key进行相似度计算得到一个非归一化的score分数: 这里用到是最简单的点乘,分母是为了调节内积结果,使得内积不那么大...
2019-06-14 23:05:19 246
原创 详解nlp预训练词向量(下)——从GPT到BERT
从Word Embedding到GPTGPT是“Generative Pre-Training”的简称,从名字看其含义是指的生成式的预训练。GPT也采用两阶段过程,第一个阶段是利用语言模型进行预训练,第二阶段通过Fine-tuning的模式解决下游任务。 上图展示了GPT的预训练过程,其实和ELMO是类似的,主要不同在于两点:首先,特征抽取器不是用的RNN,而是用的Transf...
2019-06-12 03:58:55 3581 3
原创 详解nlp预训练词向量(上)——从word2vec到ELMO
长话短说Bert具备广泛的通用性,就是说绝大部分NLP任务都可以采用类似的两阶段模式直接去提升效果。客观的说,把Bert当做最近两年NLP重大进展的集大成者更符合事实。 串起来这个故事的脉络就是自然语言的预训练过程,但是落脚点还是在Bert身上。要讲自然语言的预训练,得先从图像领域的预训练说起。图像领域的预训练预训练在图像领域的应用 1.训练数据小,不足以训练复杂网络 2.加快训...
2019-06-12 03:54:32 2574
原创 Attention
一、背景知识:大致趋势: 1 本质:人类视觉感知场景时,不会从头到尾进行感知,而是根据观察注意特定的部分。 NLPattention计算方法: 本质可以被描述为一个查询(query)到一系列(键key-值value)对的映射 计算attention三步: 第一步:将query和每个key进行相似度计算得到权重。常用的相似度计算函数有:点积、拼接、感知...
2019-06-02 16:42:07 457
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人