深度学习每周学习总结N5:调用Gensim库训练Word2Vec模型

0. 总结:

之前有学习过文本预处理的环节,对文本处理的主要方式有以下三种:

1:词袋模型(one-hot编码)

2:TF-IDF

3:Word2Vec(词向量(Word Embedding) 以及Word2vec(Word Embedding 的方法之一))

详细介绍及中英文分词详见pytorch文本分类(一):文本预处理

上上上期主要介绍Embedding,及EmbeddingBag 使用示例(对词索引向量转化为词嵌入向量) ,上上期主要介绍:应用三种模型的英文分类

上期将主要介绍中文基本分类(熟悉流程)、拓展:textCNN分类(通用模型)、拓展:Bert分类(模型进阶)

本期主要介绍Word2Vec,和nn.Embedding(), nn.EmbeddingBag()相比都是嵌入技术,用于将离散的词语或符号映射到连续的向量空间。

nn.Embeddingnn.EmbeddingBag 是深度学习框架(如 PyTorch)中的层,直接用于神经网络模型中,而 Word2Vec 是一种独立的词嵌入算法。

使用来说,如果需要在神经网络中处理变长序列的嵌入,可以选择 nn.EmbeddingBag;如果需要预训练词嵌入用于不同任务,可以选择 Word2Vec

1. 关于nn.Embedding(), nn.EmbeddingBag(), 和 word2vec

都是嵌入技术,用于将离散的词语或符号映射到连续的向量空间。虽然它们的目的相似,但它们的实现和使用场景有明显的区别。

nn.Embedding()

nn.Embedding 是 PyTorch 提供的一种层,用于将输入的索引映射到高维向量。每个输入的索引对应一个固定的向量。

  • 特点:
    简单映射:将输入的词索引直接映射到嵌入向量。
    训练:可以通过反向传播算法训练嵌入向量。
    应用:常用于处理自然语言处理中的词嵌入,输入一个批次的词索引,输出对应的嵌入向量。

  • 示例代码:

import torch
import torch.nn as nn

# 定义一个具有 10 个词汇,每个词汇被映射到 3 维向量空间的嵌入层
embedding = nn.Embedding(10, 3)

# 输入一个词汇索引,输出对应的嵌入向量
input_indices = torch.LongTensor([1, 2, 3, 4])
output = embedding(input_indices)
print(output)

nn.EmbeddingBag()

nn.EmbeddingBagnn.Embedding 的变体,通常用于处理可变长度序列的嵌入。

  • 特点:
    加权求和:将输入索引对应的嵌入向量加权求和,默认不使用权重时就是求平均。
    无padding处理:可以避免填充操作,直接处理变长序列。
    应用:常用于文本分类等需要对变长文本序列进行聚合的任务。

  • 示例代码:

import torch
import torch.nn as nn

# 定义一个具有 10 个词汇,每个词汇被映射到 3 维向量空间的嵌入层
embedding_bag = nn.EmbeddingBag(10, 3, mode='mean')

# 输入索引和偏移量
input_indices = torch.LongTensor([1, 2, 3, 4])
offsets = torch.LongTensor([0, 2])

# 输出对应的嵌入向量的平均值
output = embedding_bag(input_indices, offsets)
print(output)

Word2Vec

Word2Vec 是一种独立于深度学习框架的词嵌入算法,由 Google 提出。Word2Vec 有两个主要的变体:CBOW(Continuous Bag of Words)和 Skip-gram。

  • 特点:
    CBOW:通过上下文词预测目标词。
    Skip-gram:通过目标词预测上下文词。
    预训练模型Word2Vec 通常用于预训练词嵌入,可以在大规模语料上预训练,然后在特定任务中微调。
    独立实现:可以在 gensim 或其他库中使用,不需要特定的深度学习框架。

  • 示例代码(使用 gensim):

from gensim.models import Word2Vec

# 示例语料
sentences = [['first', 'sentence'], ['second', 'sentence']]

# 训练 Word2Vec 模型
model = Word2Vec(sentences, vector_size=100, window=5, min_count=1, workers=4)

# 获取词嵌入向量
vector = model.wv['sentence']
print(vector)

联系与区别

  • 相似点

    • nn.EmbeddingWord2Vec 都将词索引或词语映射到高维向量。
    • 它们都可以通过训练数据来学习嵌入向量。
  • 区别点

    • nn.Embeddingnn.EmbeddingBag 是深度学习框架(如 PyTorch)中的层,直接用于神经网络模型中,而 Word2Vec 是一种独立的词嵌入算法。
    • nn.EmbeddingBag 通过聚合(如求和或平均)处理变长序列,而 nn.Embedding 只能处理固定长度的输入。
    • Word2Vec 通常用于预训练嵌入,并可以在多个任务中复用,而 nn.Embeddingnn.EmbeddingBag 通常在特定任务中训练。

这些工具的选择取决于具体的应用场景和需求。例如,如果需要在神经网络中处理变长序列的嵌入,可以选择 nn.EmbeddingBag;如果需要预训练词嵌入用于不同任务,可以选择 Word2Vec

2. 调用Gensim库训练Word2Vec模型

准备工作

# 安装Gensim库
!pip install gensim
Defaulting to user installation because normal site-packages is not writeable
Requirement already satisfied: gensim in c:\programdata\anaconda3\lib\site-packages (4.1.2)
Requirement already satisfied: numpy>=1.17.0 in c:\users\chengyuanting\appdata\roaming\python\python39\site-packages (from gensim) (1.22.4)
Requirement already satisfied: smart-open>=1.8.1 in c:\programdata\anaconda3\lib\site-packages (from gensim) (5.1.0)
Requirement already satisfied: scipy>=0.18.1 in c:\users\chengyuanting\appdata\roaming\python\python39\site-packages (from gensim) (1.8.0)

对原始语料分词

import jieba
import jieba.analyse
 
jieba.suggest_freq('沙瑞金', True) # 加入一些词,使得jieba分词准确率更高
jieba.suggest_freq('田国富', True)
jieba.suggest_freq('高育良', True)
jieba.suggest_freq('侯亮平', True)
jieba.suggest_freq('钟小艾', True)
jieba.suggest_freq('陈岩石', True)
jieba.suggest_freq('欧阳菁', True)
jieba.suggest_freq('易学习', True)
jieba.suggest_freq('王大路', True)
jieba.suggest_freq('蔡成功', True)
jieba.suggest_freq('孙连城', True)
jieba.suggest_freq('季昌明', True)
jieba.suggest_freq('丁义珍', True)
jieba.suggest_freq('郑西坡', True)
jieba.suggest_freq('赵东来', True)
jieba.suggest_freq('高小琴', True)
jieba.suggest_freq('赵瑞龙', True)
jieba.suggest_freq('林华华', True)
jieba.suggest_freq('陆亦可', True)
jieba.suggest_freq('刘新建', True)
jieba.suggest_freq('刘庆祝', True)
jieba.suggest_freq('赵德汉', True)

with open('./data/in_the_name_of_people.txt',encoding = 'utf-8') as f:
    result_cut = []
    lines = f.readlines()  # 读取的内容存储在 lines 列表中,每一行作为列表的一个元素。
    for line in lines:
        result_cut.append(list(jieba.cut(line))) # 对文件的每一行使用 jieba.cut 函数进行分词,并将分词结果(一个词列表)添加到 result_cut 列表中

f.close()
Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\CHENGY~1\AppData\Local\Temp\jieba.cache
Loading model cost 0.583 seconds.
Prefix dict has been built successfully.
  • 这里使用 jieba.suggest_freq 函数来调整某些词语的词频,使得这些词语在分词时更准确。这对于一些特定的名字或短语尤为重要。参数 True 表示强制调整这些词语的词频

  • 批量添加指定词汇方法:

import jieba

# 定义需要添加的词语列表
words_to_add = [
    '沙瑞金', '田国富', '高育良', '侯亮平', '钟小艾',
    '陈岩石', '欧阳菁', '易学习', '王大路', '蔡成功',
    '孙连城', '季昌明', '丁义珍', '郑西坡', '赵东来',
    '高小琴', '赵瑞龙', '林华华', '陆亦可', '刘新建',
    '刘庆祝', '赵德汉'
]

# 批量添加词语
for word in words_to_add:
    jieba.add_word(word, freq=100000, tag='n')
# 添加自定义停用词
stopwords_list = [",","。","\n","\u3000"," ",":","!","?","…"]

def remove_stopwords(ls):  # 去除停用词
    return [word for word in ls if word not in stopwords_list]

result_stop=[remove_stopwords(x) for x in result_cut if remove_stopwords(x)]

拿到了分词后的文件,在一般的NLP处理中,会需要去停用词。由于word2vec的算法依赖于上下文,而上下文有可能就是停词。因此对于word2vec,我们可以不用去停词,仅仅去掉一些标点符号,做一个简单的数据清洗。
现在我们可以直接读分词后的文件到内存。这里使用了word2vec提供的LineSentence类来读文件,然后套用word2vec的模型。在实际应用中,可以调参提高词的embedding的效果。

print(result_stop[100:103])
[['侯亮平', '也', '很', '幽默', '一把', '抓住', '了', '赵德汉', '的', '手', '哎', '赵', '处长', '我', '既', '来', '了', '还', '真', '舍不得', '和', '你', '马上', '就', '分手', '哩', '咱们', '去', '下', '一个点', '吧', '说', '罢', '从', '赵家', '桌上', '杂物', '筐', '里', '准确', '地', '拿出', '一张', '白色', '门卡', '插到', '了', '赵德汉', '的', '上衣', '口袋', '里'], ['赵德汉', '慌', '了', '忙', '把门', '卡往', '外', '掏', '这', '这', '什么', '呀', '这', '是'], ['你', '帝京', '苑', '豪宅', '的', '门', '卡', '啊', '请', '继续', '配合', '我们', '执行公务', '吧']]

训练模型

import gensim
from gensim.models import Word2Vec

model = Word2Vec(result_stop,     # 用于训练的语料数据
                 vector_size=100, # 是指特征向量的维度,默认为100。
                 window=5,        # 一个句子中当前单词和被预测单词的最大距离。
                 min_count=1)     # 可以对字典做截断,词频少于min_count次数的单词会被丢弃掉, 默认值为5。
  • 参数解析:
  1. result_stop:用于训练的语料数据。应该是一个包含分词后的句子的列表,每个句子本身是一个词列表。例如:[['word1', 'word2', ...], ['word3', 'word4', ...], ...]

  2. vector_size:生成词向量的维度。默认值是100。这个参数决定了每个词被表示成多少维的向量。

  3. window:窗口大小,表示当前词语与预测词语之间的最大距离。在训练过程中,模型会考虑窗口范围内的词作为上下文。

  4. min_count:忽略词频少于 min_count 的词。默认值是5。设为1意味着所有词语都会被考虑,不会丢弃低频词。

  • 示例代码
    假设 result_stop 已经定义为一个包含预处理后的文本数据的列表:
import gensim
from gensim.models import Word2Vec

# 示例分词后的语料数据
result_stop = [
    ['沙瑞金', '田国富', '高育良'],
    ['侯亮平', '钟小艾', '陈岩石'],
    ['欧阳菁', '易学习', '王大路'],
    ['蔡成功', '孙连城', '季昌明'],
    # 更多的分词数据
]

# 训练 Word2Vec 模型
model = Word2Vec(result_stop,     # 用于训练的语料数据
                 vector_size=100, # 特征向量的维度,默认为100。
                 window=5,        # 当前单词和被预测单词的最大距离。
                 min_count=1)     # 词频少于min_count次数的单词会被丢弃掉, 默认值为5。

# 保存模型
model.save("word2vec_model.model")

# 加载模型
loaded_model = Word2Vec.load("word2vec_model.model")

# 获取某个词的词向量
vector = loaded_model.wv['沙瑞金']
print(vector)

# 找到与某个词最相似的词
similar_words = loaded_model.wv.most_similar('沙瑞金')
print(similar_words)

模型应用

计算词汇相似度

我们可以使用similarity()方法计算两个词汇之间的余弦相似度。

print(model.wv.similarity('沙瑞金','季昌明'))
print(model.wv.similarity('沙瑞金','田国富'))
0.9994391
0.9995074
# 选出最相似的5个词
for e in model.wv.most_similar(positive=['沙瑞金'],topn=5):
    print(e[0],e[1])
这位 0.9998624324798584
大 0.9997861385345459
领导 0.9997762441635132
个 0.999770998954773
政治 0.9997647404670715
找出不匹配的词汇

使用doesnt_match()方法,我们可以找到一组词汇中与其他词汇不匹配的词汇。

odd_word = model.wv.doesnt_match('["苹果","香蕉","猴子","书"]')
print(f"在这组词汇中不匹配的词汇:{odd_word}")
在这组词汇中不匹配的词汇:子

计算词汇的词频

我们可以使用get_vecattr()方法获取词汇的词频。

word_frequency = model.wv.get_vecattr("沙瑞金","count")
print(f"沙瑞金:{word_frequency}")
沙瑞金:353

提问:

问:每次运行得到的相似度都不一样正常吗 答:正常,可以通过设置随机种子保证结果一致

每次运行 Word2Vec 模型训练时,如果没有设置随机种子(seed),模型的初始化和训练过程会有随机性,因此得到的词向量和相似度结果可能会有所不同。为了确保每次运行得到的结果一致,可以设置随机种子。

下面是如何设置随机种子的示例代码:

import gensim
from gensim.models import Word2Vec

# 示例分词后的语料数据
result_stop = [
    ['沙瑞金', '田国富', '高育良'],
    ['侯亮平', '钟小艾', '陈岩石'],
    ['欧阳菁', '易学习', '王大路'],
    ['蔡成功', '孙连城', '季昌明'],
    # 更多的分词数据
]

# 设置随机种子以确保结果一致
seed = 42

# 训练 Word2Vec 模型
model = Word2Vec(result_stop,     # 用于训练的语料数据
                 vector_size=100, # 特征向量的维度,默认为100。
                 window=5,        # 当前单词和被预测单词的最大距离。
                 min_count=1,     # 词频少于min_count次数的单词会被丢弃掉, 默认值为5。
                 seed=seed)       # 设置随机种子

# 保存模型
model.save("word2vec_model.model")

# 加载模型
loaded_model = Word2Vec.load("word2vec_model.model")

# 获取某个词的词向量
vector = loaded_model.wv['沙瑞金']
print(vector)

# 找到与某个词最相似的词
similar_words = loaded_model.wv.most_similar('沙瑞金')
print(similar_words)

  • 8
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值