python统计word文档中的单词
-s stop_list.txt NEWS/news01.txt NEWS/news02.txt
标记:
为了简化,您可以将单词视为文件中找到的所有最大字母顺序(可以使用简单regex和regex findall方法)。为了改善重叠,您应该转换将文本转换为小写,以便在计数时将不同的大小写变体合并
计数:
您可以定义一个函数(例如count words),该函数对文件中(非非索引字表)单词的出现次数进行计数,并将这些计数作为字典返回,即单词作为键并计数为值。(或者,您可以定义一个简单的类实例存储此信息,并将单词计数功能作为一种方法。)
基本部分:
import sys, re, getopt, glob
opts, args = getopt.getopt(sys