文本表示（二）—— word2vec 词向量训练代码

微知girl

已于 2024-07-02 10:17:55 修改

阅读量1.3k

点赞数 1

分类专栏： NLP 文章标签：自然语言处理机器学习 python

于 2020-09-03 10:38:46 首次发布

本文链接：https://blog.csdn.net/katrina1rani/article/details/108377618

版权

NLP 专栏收录该内容

50 篇文章 13 订阅

订阅专栏

其它相关链接：

文本表示（三）—— fasttext 词向量调用代码

二话不说，直接上代码

import pandas as pd
import jieba
import re
from gensim.models import Word2Vec

embedding_size = 200  # 设置词向量大小
iters = 10  # 设置迭代次数
min_count = 5  
model_file = 'word2vec_{}'.format(embedding_size)

splitter = '(。|！|\!|？|\?|;|；|\n)'


# 文档加载
class TextLoader(object):
    def __init__(self):
        pass

    def __iter__(self):
        file_name = '语料.csv'
        df = pd.read_csv(file_name, sep=',', encoding='utf-8')
        texts = df['文本描述'].tolist()
        for text in texts:
            text = str(text)
            if len(text) == 0 or text == 'nan':
                continue
            sentences = re.split(splitter, str(text))
            for sen in sentences:
                segments = [str(i) for i in jieba.cut(sen)]
                yield segments


corpus = TextLoader()
model = Word2Vec(corpus, workers=20, size=embedding_size, sg=1, iter=iters, min_count=min_count)
model.save(model_file)

微知girl

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
3
评论
文本表示（二）—— word2vec 词向量训练代码

相关原理可参见：文本表示(一）—— word2vec(skip-gram CBOW) glove, transformer, BERT二话不说，直接上代码import pandas as pdimport jiebaimport refrom gensim.models import Word2Vecembedding_size = 200 # 设置词向量大小iters = 10 # 设置迭代次数min_count = 5 model_file = 'word2vec_{}'
复制链接

扫一扫