前言
学校老师要求统计人物在小说中出现的次数,我从网上找了一下脚本,并附上注释。
代码
import sys
import re
print()
# 此处的“\033[33m”是python的颜色特效控制,具体使用方法看下文的相关链接
# 输入要统计的文本位置
obj_file = input("\033[33m请输入文件路径及文件名:\033[35m");"\033[0m"
print()
# 输入要匹配的字符
obj_str = input("\033[33m请输入要查找的字符或字符串,多个以空格分隔:\033[35m");"\033[0m"
print()
# 读文本
file_obj = open('%s' % obj_file, 'r').read()
# 此处把你输入想要进行匹配的字符串做处理,例如,你输入:a b,会转换成a|b,对应正则表达式中的匹配a或b,具体方法使用看下面的相关链接。
str_re = "|".join(re.sub(' +', ' ', obj_str).split(" "))
# %s,表示格式化一个对象为字符;str_re为正则表达式,file_obj是要处理的文本
all_str = re.finditer(r'%s' % str_re, file_obj)
count_dict = {}
for s in all_str:
# s.group()方法用于从s中返回相应的字符串;setdefault()方法用于更新count_dict字典中对应key的vuale,返回值为数字
count_dict[s.group()] = count_dict.setdefault(s.group(), 0) + 1
# items用于可遍历的(键, 值) 元组数组;k[0]表示按key值,k[1]表示按value值排序,reverse为True表示倒序,False表示正序,key=lambda k: k[1]让列表按照第二维度排序
count_dict = sorted(count_dict.items(), key=lambda k: k[1], reverse=True)
for c in count_dict:
print("\033[32m【 %s 】 出现的次数为 : %d\033[0m" % (c[0], c[1]))
print()