机器学习:gensim之Word2Vec 详解

一 前言

Word2Vec是同上一篇提及的PageRank一样,都是Google的工程师和机器学习专家所提出的的;在学习这些算法、模型的时候,最好优先去看Google提出者的原汁Paper和Project,那样带来的启发将更大。因为创造者对自己所创之物的了解程度优于这世上的绝大部分者,这句话,针对的是爱看博文的读者,like me。
另外,补充几句。    
1.防止又被抄袭,故关键笔记以图贴之。
2.标题前带阿拉伯数字标号的内容,便是使用Gensim的Word2Vec模型过程中的完整流程序号,通常也较为常用且重要。

二 鸣谢

感谢如下文章/论文的详细描述,它们亦是本文的主要测试依据,尤其需要感谢最后四篇博文的精彩解说。

三 Word2Vec 概要

重要API/类

  • gensim.models.KeyedVectors
  • gensim.models.word2vec
    • gensim.models.word2vec.Word2Vec(sentences,min_count,size,worker)
  • gensim.models.Word2Vec(sentences,min_count,size,worker)

Word2Vec类:构建Word2Vec词向量模型

1173617-20190521214205960-361121728.png

四 Word2Vec 详解

  • 注:标题前带阿拉伯数字标号的内容,便是使用Gensim的Word2Vec模型过程中的完整流程序号,通常也较为常用且重要。

1 加载语料库

1173617-20190521215015156-1904286943.png
1173617-20190521215058763-510157864.png

2 (初次)训练

1173617-20190521150830822-1568145164.png

手动构建词汇表

1173617-20190521150946174-1924098696.png

3 追加训练(更新模型)

1173617-20190521151031441-77114195.png

4 存储模型

1173617-20190521151134472-261000270.png

5 加载模型

1173617-20190521151211734-1915980561.png

6 获取词向量

1173617-20190521214114810-396467055.png

加载词向量

1173617-20190521151328783-134757865.png

7 模型应用

1173617-20190521214018057-442426824.png

8 模型评估

1173617-20190521151511940-131027673.png

五 补充

  • 欢迎探讨,欢迎Follow~

转载于:https://www.cnblogs.com/johnnyzen/p/10900040.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值