python中的jieba实现对一个文件夹中的所有文档进行分词，根据停用词表去除停用词，基于文档中的非停用词及其TF-IDF值，生成该文档的词向量，具体代码...

最新推荐文章于 2023-06-05 08:00:00 发布

Mn孟

最新推荐文章于 2023-06-05 08:00:00 发布

阅读量524

点赞数

文章标签： python tf-idf 开发语言

本文链接：https://blog.csdn.net/weixin_42577735/article/details/129550257

版权

本文档介绍如何使用Python的jieba库对文件夹中的所有文档进行分词，结合停用词表过滤掉常见词汇，然后通过TF-IDF算法计算非停用词的权重，最终生成每篇文档的词向量表示。

摘要由CSDN通过智能技术生成

这是一个使用 Python 中的 jieba 库来分词，并去除停用词的示例代码：

import jieba
import os# 首先，需要加载停用词表
with open('stop_words.txt', 'r', encoding='utf-8') as f:
    stop_words = set([w.strip() for w in f])

# 然后，获取文件夹中的所有文件
files = os.listdir('documents')

# 对于每个文件，进行分词和停用词过滤
for file in files:
    with open(os.path.jo