Python 3.6 利用NLTK 统计多个文本中的词频

最新推荐文章于 2024-08-15 09:10:20 发布

W-大泡泡

最新推荐文章于 2024-08-15 09:10:20 发布

阅读量7.8k

点赞数 6

分类专栏：文件操作 Python 文章标签： python 词频统计

本文链接：https://blog.csdn.net/u011389474/article/details/62422215

版权

#!/usr/bin/env python
# encoding: utf-8

"""
@author: wg
@software: PyCharm
@file: word_frequency_statistics.py
@time: 2017/3/16 0016 10:46
"""

import os
import nltk

'''
利用NLTK 统计多个文本中的词频
'''

dirs = os.listdir('../../data/大秦帝国/') # 获取根目录
dictionary = {} # 空词典，用于保存最终的词频
stopwords = ['、','（','）','，','。',