python中的jieba实现对一个文件夹中的所有文档，基于文档中的非停用词及其TF-IDF值，生成该文档的词向量，具体代码

耄先森吖

于 2023-01-03 18:26:52 发布

阅读量220

点赞数

本文链接：https://blog.csdn.net/weixin_35753431/article/details/128873187

版权

你可以使用 Python 的 os 模块来遍历文件夹中的文件，并使用 jieba 库来分词和去除停用词。你还可以使用 scikit-learn 库中的 TfidfVectorizer 类来计算每个文档的 TF-IDF 值。这里是一个示例代码：

import os
import jieba
import jieba.analysefrom sklearn.feature_extraction.text import TfidfVectorizer

# 读取停用词
with open('stopwords.txt', 'r', encoding='utf-8') as f:
    stopwords = [line.strip() for line in f]

# 遍历文件夹中的文件
documents = []
for file in os.listdir('documents'):
    with open(os.path.join('documents', file), 'r', encoding='utf-8') as f:
        # 分词、去停用词
        words = [word for word in jieba.cut(f.read()) if word not in stopwords]
        documents.append(' '.join(words))

# 计算每个文档的词向量
vectorizer = TfidfVectorizer()
vectors = vectorizer.fit_transform(documents)

在这段代码中，我们使用 os 模块的 listdir 函数遍历了文件夹 "documents" 中的文件，然后对每个文件使用 jieba 库分词并去除停用词。最后，我们使用 TfidfVectorizer 类计算了每个文档的词向量。

耄先森吖

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python中的jieba实现对一个文件夹中的所有文档，基于文档中的非停用词及其TF-IDF值，生成该文档的词向量，具体代码

你可以使用 Python 的 os 模块来遍历文件夹中的文件，并使用 jieba 库来分词和去除停用词。你还可以使用 scikit-learn 库中的 TfidfVectorizer 类来计算每个文档的 TF-IDF 值。这里是一个示例代码：import osimport jiebaimport jieba.analysefrom sklearn.feature_extraction.tex...
复制链接

扫一扫