word2vec模型原理（附python实现代码）

最新推荐文章于 2024-07-10 00:00:24 发布

咕噜oo

最新推荐文章于 2024-07-10 00:00:24 发布

阅读量2.9k

点赞数 8

分类专栏： Python 算法文章标签： python 机器学习深度学习大数据 java

本文链接：https://blog.csdn.net/qq_44081582/article/details/117529507

版权

本文深入探讨了word2vec模型的工作原理，并提供了详细的Python实现代码，包括模型训练、日志打印、bin模型加载与保存、txt模型加载与使用等关键步骤。

摘要由CSDN通过智能技术生成

附python实现代码

模型训练

import logging
import gensim
from gensim.models import word2vec
# 设置输出日志
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
# 直接用gemsim提供的API去读取txt文件，读取文件的API有LineSentence 和 Text8Corpus, PathLineSentences等。
sentences = word2vec.LineSentence("F:/数据集/微博新闻数据集/result.txt")
# 训练模型，词向量的长度设置为200， 迭代次数为8，采用skip-gram模型，模型保存为bin格式
model = gensim.models.Word2Vec(sentences, size=200, sg=1, iter=8)  
model.wv.save_word2vec_format("./word2Vec" + ".bin", binary=True)

打印日志（部分截图），完成迭代

加载bi

最低0.47元/天解锁文章

咕噜oo

关注

8
点赞
踩
53

收藏

觉得还不错? 一键收藏
3
评论
word2vec模型原理（附python实现代码）

•LDA是一种文档主题生成模型，也称为三层贝叶斯概率模型，包含词、主题和文档三层结构。利用文档中单词的共现关系来对单词按主题聚类，得到“文档-主题”和“主题-单词”2个概率分布。•LDA认为一篇文章的每个词都是通过以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语。•LDA是一种非监督机器学习技术，可以用来识别大规模文档集或语料库中潜藏的主题信息。它采用了词袋（bag of words）的方法，将每一篇文档视为一个词频向量，从而将文本信息转化为易于建模的数字信息。每一篇文档代表了一些主题
复制链接

扫一扫

专栏目录