2019年06月_咕噜咕噜day

11月 10月 09月 08月 07月 06月 05月 04月 02月

原创 Attention机制鸟瞰（16年开始）

背景知识Attention机制可以理解为一种文本聚焦方法，基本思想是对文本分配注意力权重，把注意力集中在相关的文本内容，增加这部分的贡献。假设q_t就是时刻t下的query向量，K是key矩阵，k_s是其中一个key向量，V是value矩阵，我们先对q_t和每个key进行相似度计算得到一个非归一化的score分数：这里用到是最简单的点乘，分母是为了调节内积结果，使得内积不那么大...

2019-06-14 23:05:19 246

原创详解nlp预训练词向量(下)——从GPT到BERT

从Word Embedding到GPTGPT是“Generative Pre-Training”的简称，从名字看其含义是指的生成式的预训练。GPT也采用两阶段过程，第一个阶段是利用语言模型进行预训练，第二阶段通过Fine-tuning的模式解决下游任务。上图展示了GPT的预训练过程，其实和ELMO是类似的，主要不同在于两点：首先，特征抽取器不是用的RNN，而是用的Transf...

2019-06-12 03:58:55 3581 3

原创详解nlp预训练词向量(上)——从word2vec到ELMO

长话短说Bert具备广泛的通用性，就是说绝大部分NLP任务都可以采用类似的两阶段模式直接去提升效果。客观的说，把Bert当做最近两年NLP重大进展的集大成者更符合事实。串起来这个故事的脉络就是自然语言的预训练过程，但是落脚点还是在Bert身上。要讲自然语言的预训练，得先从图像领域的预训练说起。图像领域的预训练预训练在图像领域的应用 1.训练数据小，不足以训练复杂网络 2.加快训...

2019-06-12 03:54:32 2574

原创 Attention

一、背景知识：大致趋势： 1 本质：人类视觉感知场景时，不会从头到尾进行感知，而是根据观察注意特定的部分。 NLPattention计算方法：本质可以被描述为一个查询（query）到一系列（键key-值value）对的映射计算attention三步：第一步：将query和每个key进行相似度计算得到权重。常用的相似度计算函数有：点积、拼接、感知...

2019-06-02 16:42:07 457

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 Attention机制鸟瞰（16年开始）

原创 详解nlp预训练词向量(下)——从GPT到BERT

原创 详解nlp预训练词向量(上)——从word2vec到ELMO

原创 Attention

空空如也

空空如也

原创详解nlp预训练词向量(下)——从GPT到BERT

原创详解nlp预训练词向量(上)——从word2vec到ELMO