2020年03月_Adherer

03月

原创 BERT模型的若干问题整理记录 & 思考

1.BERT的基本原理是什么？BERT来自Google的论文Pre-training of Deep Bidirectional Transformers for Language Understanding，BERT是”Bidirectional Encoder Representations from Transformers”的首字母缩写，整体是一个自编码语言模型（Autoencoder ...

2020-03-31 10:07:30 5177

原创关于Transformer的若干问题整理记录& 思考

模型总览：1.Transformer的结构是什么样的？Transformer本身还是一个典型的encoder-decoder模型，如果从模型层面来看，Transformer实际上就像一个seq2seq with attention的模型，下面大概说明一下Transformer的结构以及各个模块的组成。(1). Encoder端 & Decoder端总览Encoder端由N(原...

2020-03-31 10:01:20 1978 1

原创关于ELMo的若干问题整理 & 思考

1.ELMo的基本原理是什么？ELMO采用了典型的两阶段过程，第一个阶段是利用语言模型进行预训练；第二个阶段是在做下游任务时，从预训练网络中提取对应单词的网络各层的Word Embedding作为新特征补充到下游任务中。第一阶段：利用语言模型进行预训练第一阶段模型总览：上图展示的是其预训练过程，它的网络结构采用了双层双向LSTM，其中单词(token)特征这一块采用的是单词的embedd...

2020-03-31 09:57:44 850

原创关于word2vec的一些相关问题整理 & 思考

1.简述word2vec基本思想，并简要描述CBOW和Skip-gram模型word2vec的基本思想是一个词的意思，可以由这个词的上下文来表示。相似词拥有相似的上下文，这也就是所谓的离散分布假设（distributional hypothesis），论文中的做法是通过神经语言模型训练每个词并将其映射成k维实值向量（k一般为模型中的超参数），在高维空间中可以通过词之间的距离来判断语义相似度...

2020-03-31 09:53:59 1550

CS 229课堂笔记(基于吴恩达老师斯坦福机器学习课程)

CS 229的课堂笔记，整理的非常好，适合直接打印学习。

2018-07-17

《Java基础36讲》

四川大学研究生学长亲制的《Java基础36讲》，适合零基础的同学入门学习，也适合非CS专业的同学自学，讲的很详细！

2018-07-17

吴恩达CS 229-Machine Learning Autumn 2017的课件，带书签版本

吴恩达CS 229-Machine Learning Autumn 2017的课件，带书签版本(包括extra notes、problem set、助教上课的课件和吴恩达老师推荐的论文)

2018-07-16

超智能体pdf文件

超智能体pdf，原来托管在GitBook上，后来被原博主删除。该书生动形象的描述了机器学习和深度学习的基础知识，值得推荐。

2018-03-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人