Word2Vec模型——将文本转换成向量的方法

最新推荐文章于 2024-06-12 17:18:10 发布

鲍东辰

最新推荐文章于 2024-06-12 17:18:10 发布

阅读量7.4k

点赞数 11

文章标签： word2vec 机器学习人工智能自然语言处理 python

本文链接：https://blog.csdn.net/m0_56540237/article/details/129246634

版权

在美赛的时候，用了一下这个模型，发一下。

Word2Vec是一种用于将文本转换为向量表示的技术。它是Google在2013年开发的一种工具，主要用于将单词转换为向量表示，并在向量空间中找到单词之间的语义关系。Word2Vec模型有两种架构：连续词袋模型（Continuous Bag-of-Words，简称CBOW）和跳跃式模型（Skip-Gram）。

在CBOW模型中，模型试图从上下文中推断出当前单词，而在Skip-Gram模型中，模型试图从当前单词中推断出上下文单词。Word2Vec的目标是学习到一个向量空间，使得在这个向量空间中，语义上相似的单词在空间上也比较接近。具体地说，Word2Vec将单词表示为高维向量，这些向量被设计为捕捉到单词在上下文中出现的概率分布。这些向量被训练出来后，可以用于各种自然语言处理任务，如文本分类、语言翻译和情感分析等。

在一般情况下，Skip-gram算法对于训练较小的语料库或者低频单词表现较好，而CBOW算法对于训练较大的语料库或者高频单词表现较好。

话不多说，直接上代码。

import pandas as pd
from gensim.models import Word2Vec

# 读入数据
# 读取训练文本
with open('output.txt', 'r', encoding='utf-8') as f:
    sentences = [line.strip().split() for line in f]

# 训练Word2Vec模型
model = Word2Vec(sentences, vector_size