自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 Attention机制鸟瞰(16年开始)

背景知识Attention机制可以理解为一种文本聚焦方法,基本思想是对文本分配注意力权重,把注意力集中在相关的文本内容,增加这部分的贡献。 假设q_t就是时刻t下的query向量,K是key矩阵,k_s是其中一个key向量,V是value矩阵,我们先对q_t和每个key进行相似度计算得到一个非归一化的score分数: 这里用到是最简单的点乘,分母是为了调节内积结果,使得内积不那么大...

2019-06-14 23:05:19 246

原创 详解nlp预训练词向量(下)——从GPT到BERT

从Word Embedding到GPTGPT是“Generative Pre-Training”的简称,从名字看其含义是指的生成式的预训练。GPT也采用两阶段过程,第一个阶段是利用语言模型进行预训练,第二阶段通过Fine-tuning的模式解决下游任务。 上图展示了GPT的预训练过程,其实和ELMO是类似的,主要不同在于两点:首先,特征抽取器不是用的RNN,而是用的Transf...

2019-06-12 03:58:55 3581 3

原创 详解nlp预训练词向量(上)——从word2vec到ELMO

长话短说Bert具备广泛的通用性,就是说绝大部分NLP任务都可以采用类似的两阶段模式直接去提升效果。客观的说,把Bert当做最近两年NLP重大进展的集大成者更符合事实。 串起来这个故事的脉络就是自然语言的预训练过程,但是落脚点还是在Bert身上。要讲自然语言的预训练,得先从图像领域的预训练说起。图像领域的预训练预训练在图像领域的应用 1.训练数据小,不足以训练复杂网络 2.加快训...

2019-06-12 03:54:32 2574

原创 Attention

一、背景知识:大致趋势: 1 本质:人类视觉感知场景时,不会从头到尾进行感知,而是根据观察注意特定的部分。 NLPattention计算方法: 本质可以被描述为一个查询(query)到一系列(键key-值value)对的映射 计算attention三步: 第一步:将query和每个key进行相似度计算得到权重。常用的相似度计算函数有:点积、拼接、感知...

2019-06-02 16:42:07 457

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除