![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
pre-trained model
文章平均质量分 97
以word2vec开始的预训练模型
ForcedOverflow
弱小和无知不是生存的障碍,傲慢才是。
展开
-
microsoft 的gpt2模型源码学习记录
相关链接:gpt2论文传送门microsoft Deepspeed gpt2源码传送微软 Deepspeed 中集成的 gpt2 代码感觉比 haggingface 的代码可读性要强很多,这里只用作代码结构的学习,暂时忽略其中模型分片并行的部分。(虽然感觉直接把精华给忽略了Orz)1. GPT2模型概述GPT2 是2018年发布的预训练模型,使用超过40G的近8000万的网页文本数据对模型进行训练。GPT-2 可以理解成是由 transforer 的decoder 堆叠成的,输入是 word原创 2021-03-23 01:50:42 · 2417 阅读 · 0 评论 -
gensim中word2vec python源码理解(二)Skip-gram模型训练
[gensim中word2vec python源码理解(一)初始化构建单词表(https://blog.csdn.net/u014568072/article/details/79071116)gensim中word2vec python源码理解(二)Skip-gram模型训练本文是在上一篇《使用Hierarchical Softmax方法构建单词表》的基础上,继续记录对word2vec源码的...原创 2019-11-16 10:24:56 · 2695 阅读 · 2 评论 -
gensim中word2vec python源码理解(一)初始化构建单词表
本文主要谈一谈对gensim包中封装的word2vec python源码中,使用Hierarchical Softmax构建单词表部分代码的理解。原创 2019-03-10 23:08:15 · 12784 阅读 · 9 评论 -
Doc2vec论文阅读及源码理解
《Distributed representationss of Sentences and Documents》Quoc Le and Tomas Mikolov, 2014Model1. Distributed Memory Model of Paragraph Vectors (PV-DM).1.1 模型架构图(有点类似word2vec中的CBOW模型,根据上下文预测当前词)在P...原创 2019-08-03 11:29:35 · 3022 阅读 · 1 评论