使用gensim+jieba生成Word Embeddings

最新推荐文章于 2024-04-24 00:02:32 发布

大浪中航行

最新推荐文章于 2024-04-24 00:02:32 发布

阅读量1.6k

点赞数 1

分类专栏： NLP 文章标签： Word2Vec gensim jieba 词向量 Word Embeddings

本文链接：https://blog.csdn.net/dalangzhonghangxing/article/details/80298824

版权

本文介绍如何结合gensim和jieba库在自然语言处理中生成Word Embeddings，探讨Word2Vec的使用及其在gensim中的实现。

摘要由CSDN通过智能技术生成

在自然语言处理中，使用Word2Vec来生成Word Embeddings是非常常用的一种做法，而gensim这个库提供了生成W2V的接口。

import os
import jieba
from gensim.models import Word2Vec

# 迭代器，使用jieba将句子进行分词
class Sentences(object):# 这个类可以根据实际情况重写，我已经将所有的文章进行分句，并整合到了一个文件里面
    def __init__(self, dirname):
        self.dirname = dirname # 句子所在文件，没句句子占一行
        jieba.load_userdict("wordBase.txt")