这是一个使用 Python 中的 jieba 库来分词,并去除停用词的示例代码:
import jieba
import os# 首先,需要加载停用词表
with open('stop_words.txt', 'r', encoding='utf-8') as f:
stop_words = set([w.strip() for w in f])
# 然后,获取文件夹中的所有文件
files = os.listdir('documents')
# 对于每个文件,进行分词和停用词过滤
for file in files:
with open(os.path.jo