- 博客(4)
- 资源 (4)
- 收藏
- 关注
原创 BERT模型的若干问题整理记录 & 思考
1.BERT的基本原理是什么?BERT来自Google的论文Pre-training of Deep Bidirectional Transformers for Language Understanding,BERT是”Bidirectional Encoder Representations from Transformers”的首字母缩写,整体是一个自编码语言模型(Autoencoder ...
2020-03-31 10:07:30 5177
原创 关于Transformer的若干问题整理记录& 思考
模型总览:1.Transformer的结构是什么样的?Transformer本身还是一个典型的encoder-decoder模型,如果从模型层面来看,Transformer实际上就像一个seq2seq with attention的模型,下面大概说明一下Transformer的结构以及各个模块的组成。(1). Encoder端 & Decoder端总览Encoder端由N(原...
2020-03-31 10:01:20 1978 1
原创 关于ELMo的若干问题整理 & 思考
1.ELMo的基本原理是什么?ELMO采用了典型的两阶段过程,第一个阶段是利用语言模型进行预训练;第二个阶段是在做下游任务时,从预训练网络中提取对应单词的网络各层的Word Embedding作为新特征补充到下游任务中。第一阶段:利用语言模型进行预训练第一阶段模型总览:上图展示的是其预训练过程,它的网络结构采用了双层双向LSTM,其中单词(token)特征这一块采用的是单词的embedd...
2020-03-31 09:57:44 850
原创 关于word2vec的一些相关问题整理 & 思考
1.简述word2vec基本思想,并简要描述CBOW和Skip-gram模型word2vec的基本思想是一个词的意思, 可以由这个词的上下文来表示。 相似词拥有相似的上下文, 这也就是所谓的离散分布假设(distributional hypothesis),论文中的做法是通过神经语言模型训练每个词并将其映射成k维实值向量(k一般为模型中的超参数),在高维空间中可以通过词之间的距离来判断语义相似度...
2020-03-31 09:53:59 1550
吴恩达CS 229-Machine Learning Autumn 2017的课件,带书签版本
2018-07-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人