NLP基础3-词向量之Word2Vec的Gensim实现

知识复盘计划

已于 2023-11-07 02:09:51 修改

阅读量93

点赞数 1

分类专栏：自然语言处理文章标签：自然语言处理 word2vec 人工智能 python

于 2023-11-07 02:08:23 首次发布

本文链接：https://blog.csdn.net/qq_45792437/article/details/134257985

版权

自然语言处理专栏收录该内容

3 篇文章 0 订阅

订阅专栏

NLP基础1-词向量之序号化，One-Hot，BOW/TF，TF-IDF
NLP基础2-词向量之Word2Vec
NLP基础3-词向量之Word2Vec的Gensim实现

一、Gensim 框架下的W ord2Vec 重要参数

在这里插入图片描述

vector_size: 最终期望提取的单词向量维度大小，就是 embedding_dim
window: 窗口大小 = 周边词 + 目标词
min_count: 单词频数小于该值的单词不参与训练
sg: 1(Skip-gram) 0(CBOW) 两个结构
hs: 1(hierarchical softmax) 0(negative sampling) 两个优化
negative: 当hs为0的时候, 给定负样本数目, 给定为0表示不采用负采样
alpha: 学习率
cbow_mean: CBOW结构中, 上下文单词特征合并的时候采用哪种合并方式:1表示均值合并, 0表示求和
sample: 给定训练数据的单词重采样频率
ns_exponent: 给定负采样的时候，计算各个类别被抽取的概率公式中的超参数；

二、代码实现

import jieba
import gensim
from gensim.models import word2vec
# 1. 针对 txt 文件内容进行分词
with open(word_file_path,'w', encoding='utf-8') as writer:
    with open(sentence_file_path, 'r', encoding='utf-8') as reader:
        # 加载所有数据
        content = reader.read()
        # 分词
        content = jieba.cut(content)
        # 合并结果
        result = ' '.join(content)
        # 结果输出
        writer.write(result)    
# 2. 每行数据加载
print(f"文件路径:{word_file_path}")   # 分词后的文件路径
sentences = word2vec.LineSentence(word_file_path) # 底层的执行逻辑代码：针对给定的文件，按行读取数据，并按空格进行单词划分，最后划分
# 3. 训练Word2Vec模型
model = word2vec.Word2Vec(sentences, hs = 1,min_count = 1,window = 3,vector_size = 100)