机器学习之路
该专栏主要记录自己学习机器学习 & 自然语言处理相关的一些总结和思考
Adherer
sunshine
展开
-
BERT模型的若干问题整理记录 & 思考
1.BERT的基本原理是什么?BERT来自Google的论文Pre-training of Deep Bidirectional Transformers for Language Understanding,BERT是”Bidirectional Encoder Representations from Transformers”的首字母缩写,整体是一个自编码语言模型(Autoencoder ...原创 2020-03-31 10:07:30 · 5095 阅读 · 0 评论 -
关于Transformer的若干问题整理记录& 思考
模型总览:1.Transformer的结构是什么样的?Transformer本身还是一个典型的encoder-decoder模型,如果从模型层面来看,Transformer实际上就像一个seq2seq with attention的模型,下面大概说明一下Transformer的结构以及各个模块的组成。(1). Encoder端 & Decoder端总览Encoder端由N(原...原创 2020-03-31 10:01:20 · 1943 阅读 · 1 评论 -
关于ELMo的若干问题整理 & 思考
1.ELMo的基本原理是什么?ELMO采用了典型的两阶段过程,第一个阶段是利用语言模型进行预训练;第二个阶段是在做下游任务时,从预训练网络中提取对应单词的网络各层的Word Embedding作为新特征补充到下游任务中。第一阶段:利用语言模型进行预训练第一阶段模型总览:上图展示的是其预训练过程,它的网络结构采用了双层双向LSTM,其中单词(token)特征这一块采用的是单词的embedd...原创 2020-03-31 09:57:44 · 800 阅读 · 0 评论 -
关于word2vec的一些相关问题整理 & 思考
1.简述word2vec基本思想,并简要描述CBOW和Skip-gram模型word2vec的基本思想是一个词的意思, 可以由这个词的上下文来表示。 相似词拥有相似的上下文, 这也就是所谓的离散分布假设(distributional hypothesis),论文中的做法是通过神经语言模型训练每个词并将其映射成k维实值向量(k一般为模型中的超参数),在高维空间中可以通过词之间的距离来判断语义相似度...原创 2020-03-31 09:53:59 · 1526 阅读 · 0 评论