基于gensim训练word2vec词向量模型

最新推荐文章于 2024-07-26 15:05:42 发布

x+x=2x

最新推荐文章于 2024-07-26 15:05:42 发布

阅读量1.6k

点赞数

分类专栏： NLP 文章标签：自然语言处理 word2vec 机器学习

本文链接：https://blog.csdn.net/qq_45430594/article/details/121358205

版权

本文介绍了如何使用gensim库进行word2vec词向量模型的训练，包括数据预处理（使用jieba分词）、模型构建、训练、保存及加载，详细讲解了每个步骤的操作过程。

摘要由CSDN通过智能技术生成

1.安装gensim

使用pip安装gensim，如果安装缓慢，建议换个安装源。

pip install gensim

2.数据预处理

2.1jieba分词

利用pandas库读取数据，apply方法批量处理。

def preprocessData(path='D:/Py/Data/comment5_1.txt', sep=' ', 
                   names=['sightName','emotion','comment']):
    df_all_data = pd.read_csv(path, sep=sep, names=names, escapechar='\\')
    tqdm.pandas(desc='分词进度', ncols=100)
    df_all_data