gensim---gensim构建词向量模型Word2Vec

利用库gensim构建向量模型Word2Vec

数据准备格式

在这里插入图片描述
语料:每句话内容,词之间相互以空格隔开
模型构建代码:

from gensim.models import word2vec

class Solution():
    def __init__(self):
        # 语料路径
        self.corpus_path = r"xxx\corpus.txt"
        # 模型保存路径
        self.save_path = r"xxx\word2vec_sg.model"
        # 模型加载路径
        self.model_path = r"xxx\word2vec_sg.model"
        
    def buildWord2Vec(self):
        # 获取训练语料
        print('new_energy_sentences:')
        sentences = word2vec.Text8Corpus(self.corpus_path)
    
        # 模型训练
        print('Model train...')
        model = word2vec.Word2Vec(sentences,sg=1,min_count=3, size=100, window=8)
    
        print('Model save...')
        model.save(self.save_path)
        
    def testModel(self):
        model = word2vec.Word2Vec.load(self.model_path)
        # 计算两个词的相似度/相关程度
        print(model.similarity("喜剧", "惊悚"))
        
        # 计算某个词的相关词列表
        print(model.most_similar("动作", topn=10))  # 10个最相关的
        
    def main(self):
        self.buildWord2Vec()
        # self.testModel()
        pass
ob = Solution()
ob.main() 
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值